บทถอดเสียงและผู้พูด

Whisperer ถอดเสียงพูดแบบเรียลไทม์โดยใช้ Whisper — โมเดลหลายภาษาของ OpenAI การแยกแยะผู้พูด (speaker diarization) ทำงานไปพร้อมกัน: คำพูดของผู้ใช้และคำพูดของคู่สนทนาจะถูกติดป้ายกำกับต่างกัน ทำให้บทถอดเสียงอ่านง่ายขึ้นและเพิ่มความแม่นยำของคำตอบจาก AI

ควรอ่านบทความนี้เมื่อใด

อ่านบทความนี้เพื่อทำความเข้าใจ:

  • วิธีตั้งค่าภาษาที่ใช้ในการรู้จำเสียง
  • เหตุใดบางคำพูดจึงถูกติดป้าย [Me] และบางคำพูดถูกติดป้าย [Other]
  • รองรับภาษาใดบ้างและสลับระหว่างภาษาอย่างไร

การถอดเสียงทำงานอย่างไร

Whisperer จับสตรีมเสียงสองสตรีม:

สตรีม แหล่งที่มา ป้ายกำกับ
เสียงของผู้ใช้ ไมโครโฟน [Me]
เสียงของคู่สนทนา เสียงระบบ (สิทธิ์การบันทึกหน้าจอบน macOS / เสียงระบบบน Windows) [Other]

แต่ละชิ้นเสียง (~0.8 วินาที) จะถูกส่งไปยังเซิร์ฟเวอร์พร้อมป้ายกำกับผู้พูด และได้รับการรู้จำเสียงแยกกันอย่างอิสระ ผลลัพธ์จะปรากฏทันทีใน LiveTranscriptStrip — แถบเลื่อนข้อความที่ด้านล่างของโอเวอร์เลย์

ภาษาในการถอดเสียง

ภาษาที่ใช้ในการรู้จำเสียงถูกตั้งค่าในระดับเซสชัน:

  1. เปิด การตั้งค่า ในไคลเอนต์ (ไอคอนรูปเฟือง) หรือในแดชบอร์ดบนเว็บ
  2. ค้นหาช่อง ภาษาในการถอดเสียง
  3. เลือกภาษาที่ต้องการจากรายการรหัสภาษามาตรฐาน (เช่น en, ru, zh, de)
  4. เริ่มเซสชันใหม่ — ภาษานี้จะถูกนำไปใช้กับเซสชันนั้น

Whisper รองรับมากกว่า 90 ภาษา หากผู้เข้าร่วมประชุมพูดต่างภาษากัน Whisper จะตรวจจับแต่ละชิ้นเสียงโดยอัตโนมัติภายใต้ "คำใบ้" ภาษาที่เลือกไว้

📸 [ภาพหน้าจอ: แถบเลื่อน LiveTranscriptStrip ที่มีคำพูด [Me] และ [Other]]

บทถอดเสียงฉบับเต็มในแดชบอร์ด

หลังจากเซสชันสิ้นสุดลง บทถอดเสียงฉบับเต็มจะพร้อมใช้งานในส่วน ประวัติ ของแดชบอร์ดบนเว็บ คุณสามารถ:

  • อ่านโดยกรองตามผู้พูด
  • คัดลอกทั้งฉบับหรือเฉพาะบางส่วน
  • ใช้เป็นพื้นฐานสำหรับการวิเคราะห์และแผนผังความคิด (mind maps)

📸 [ภาพหน้าจอ: หน้าเซสชันในแดชบอร์ด — บล็อกบทถอดเสียงพร้อมป้ายกำกับผู้พูด]

ข้อผิดพลาดที่พบบ่อย

ข้อผิดพลาด สาเหตุ วิธีแก้ไข
เสียงของคู่สนทนาไม่ถูกถอดเสียง ยังไม่ได้ให้สิทธิ์การบันทึกหน้าจอ (macOS) หรือเสียงระบบไม่พร้อมใช้งาน (Windows) สิทธิ์บน macOS / Windows
ภาษาในบทถอดเสียงผิด เลือกภาษาในการถอดเสียงไม่ถูกต้อง เปลี่ยนภาษาในการตั้งค่าและเริ่มเซสชันใหม่
ข้อความปนกันระหว่างผู้พูด ไมโครโฟนจับเสียงทั้งสองสตรีม (เสียงสะท้อน) ใช้หูฟังหรือลดระดับเสียงลำโพง
ไม่มีข้อความเมื่อการเชื่อมต่ออ่อน WebSocket หลุดก่อนที่คำตอบจาก Whisper จะมาถึง ปรับปรุงการเชื่อมต่อของคุณ; Whisperer จะเชื่อมต่อใหม่โดยอัตโนมัติ

แนวปฏิบัติที่ดีที่สุด

  • ใช้หูฟัง — ช่วยขจัดเสียงสะท้อนทางอะคูสติกและปรับปรุงการแยกผู้พูด
  • เลือกภาษาที่ถูกต้องก่อนเริ่มเซสชัน — การเปลี่ยนภาษากลางคันระหว่างการบันทึกจะสร้างเซสชันใหม่
  • ในการโทรสองภาษา คุณสามารถเลือกภาษาของคู่สนทนาได้: Whisper จะยังคงรู้จำคำพูดของคุณได้ด้วยคำใบ้จากบริบท

บทความที่เกี่ยวข้อง