บทถอดเสียงและผู้พูด
Whisperer ถอดเสียงพูดแบบเรียลไทม์โดยใช้ Whisper — โมเดลหลายภาษาของ OpenAI การแยกแยะผู้พูด (speaker diarization) ทำงานไปพร้อมกัน: คำพูดของผู้ใช้และคำพูดของคู่สนทนาจะถูกติดป้ายกำกับต่างกัน ทำให้บทถอดเสียงอ่านง่ายขึ้นและเพิ่มความแม่นยำของคำตอบจาก AI
ควรอ่านบทความนี้เมื่อใด
อ่านบทความนี้เพื่อทำความเข้าใจ:
- วิธีตั้งค่าภาษาที่ใช้ในการรู้จำเสียง
- เหตุใดบางคำพูดจึงถูกติดป้าย [Me] และบางคำพูดถูกติดป้าย [Other]
- รองรับภาษาใดบ้างและสลับระหว่างภาษาอย่างไร
การถอดเสียงทำงานอย่างไร
Whisperer จับสตรีมเสียงสองสตรีม:
| สตรีม | แหล่งที่มา | ป้ายกำกับ |
|---|---|---|
| เสียงของผู้ใช้ | ไมโครโฟน | [Me] |
| เสียงของคู่สนทนา | เสียงระบบ (สิทธิ์การบันทึกหน้าจอบน macOS / เสียงระบบบน Windows) | [Other] |
แต่ละชิ้นเสียง (~0.8 วินาที) จะถูกส่งไปยังเซิร์ฟเวอร์พร้อมป้ายกำกับผู้พูด และได้รับการรู้จำเสียงแยกกันอย่างอิสระ ผลลัพธ์จะปรากฏทันทีใน LiveTranscriptStrip — แถบเลื่อนข้อความที่ด้านล่างของโอเวอร์เลย์
ภาษาในการถอดเสียง
ภาษาที่ใช้ในการรู้จำเสียงถูกตั้งค่าในระดับเซสชัน:
- เปิด การตั้งค่า ในไคลเอนต์ (ไอคอนรูปเฟือง) หรือในแดชบอร์ดบนเว็บ
- ค้นหาช่อง ภาษาในการถอดเสียง
- เลือกภาษาที่ต้องการจากรายการรหัสภาษามาตรฐาน (เช่น
en,ru,zh,de) - เริ่มเซสชันใหม่ — ภาษานี้จะถูกนำไปใช้กับเซสชันนั้น
Whisper รองรับมากกว่า 90 ภาษา หากผู้เข้าร่วมประชุมพูดต่างภาษากัน Whisper จะตรวจจับแต่ละชิ้นเสียงโดยอัตโนมัติภายใต้ "คำใบ้" ภาษาที่เลือกไว้
📸 [ภาพหน้าจอ: แถบเลื่อน LiveTranscriptStrip ที่มีคำพูด [Me] และ [Other]]
บทถอดเสียงฉบับเต็มในแดชบอร์ด
หลังจากเซสชันสิ้นสุดลง บทถอดเสียงฉบับเต็มจะพร้อมใช้งานในส่วน ประวัติ ของแดชบอร์ดบนเว็บ คุณสามารถ:
- อ่านโดยกรองตามผู้พูด
- คัดลอกทั้งฉบับหรือเฉพาะบางส่วน
- ใช้เป็นพื้นฐานสำหรับการวิเคราะห์และแผนผังความคิด (mind maps)
📸 [ภาพหน้าจอ: หน้าเซสชันในแดชบอร์ด — บล็อกบทถอดเสียงพร้อมป้ายกำกับผู้พูด]
ข้อผิดพลาดที่พบบ่อย
| ข้อผิดพลาด | สาเหตุ | วิธีแก้ไข |
|---|---|---|
| เสียงของคู่สนทนาไม่ถูกถอดเสียง | ยังไม่ได้ให้สิทธิ์การบันทึกหน้าจอ (macOS) หรือเสียงระบบไม่พร้อมใช้งาน (Windows) | สิทธิ์บน macOS / Windows |
| ภาษาในบทถอดเสียงผิด | เลือกภาษาในการถอดเสียงไม่ถูกต้อง | เปลี่ยนภาษาในการตั้งค่าและเริ่มเซสชันใหม่ |
| ข้อความปนกันระหว่างผู้พูด | ไมโครโฟนจับเสียงทั้งสองสตรีม (เสียงสะท้อน) | ใช้หูฟังหรือลดระดับเสียงลำโพง |
| ไม่มีข้อความเมื่อการเชื่อมต่ออ่อน | WebSocket หลุดก่อนที่คำตอบจาก Whisper จะมาถึง | ปรับปรุงการเชื่อมต่อของคุณ; Whisperer จะเชื่อมต่อใหม่โดยอัตโนมัติ |
แนวปฏิบัติที่ดีที่สุด
- ใช้หูฟัง — ช่วยขจัดเสียงสะท้อนทางอะคูสติกและปรับปรุงการแยกผู้พูด
- เลือกภาษาที่ถูกต้องก่อนเริ่มเซสชัน — การเปลี่ยนภาษากลางคันระหว่างการบันทึกจะสร้างเซสชันใหม่
- ในการโทรสองภาษา คุณสามารถเลือกภาษาของคู่สนทนาได้: Whisper จะยังคงรู้จำคำพูดของคุณได้ด้วยคำใบ้จากบริบท