การถอดเสียงแบบสด (Live transcription)

ภาพรวม

การถอดเสียงแบบสดคือการถอดบทสนทนาในสายของคุณแบบเรียลไทม์ Whisperer จะคอยฟังเสียงผ่านสองสตรีมที่เป็นอิสระจากกัน — ไมโครโฟนของคุณ (เสียงของคุณ) และเสียงระบบ (เสียงของอีกฝ่าย) — แล้วรู้จำคำพูดและติดป้ายกำกับผู้พูดให้แต่ละประโยคทันที: [Me] และ [Other] ข้อความจะเลื่อนแสดงในโอเวอร์เลย์ (LiveTranscriptStrip) และทำหน้าที่เป็นบริบทสำหรับคำแนะนำจาก AI

การรู้จำเสียงทำงานผ่านโมเดล Whisper แบบเรียลไทม์ การถอดเสียงเป็นแบบ สตรีมมิงเท่านั้น (เรียลไทม์): เสียงจะถูกส่งไปรู้จำเป็นช่วงสั้น ๆ ตามที่กำลังบันทึก ไม่มีการอัปโหลดไฟล์เสียงที่บันทึกเสร็จแล้วเพื่อถอดเสียงแบบเป็นชุด — Whisperer ถูกสร้างมาเพื่อการสนทนาสด ไม่ใช่เพื่อประมวลผลการบันทึกภายหลัง

ใช้เมื่อไหร่

  • วิดีโอคอลทุกรูปแบบ Whisperer ทำงานเป็นโอเวอร์เลย์ทับ Zoom, Google Meet, Microsoft Teams, Telegram, Discord และบริการอื่น ๆ — โดยไม่ต้องเชื่อมต่อแยกต่างหาก
  • การสัมภาษณ์ (ทั้งเชิงพฤติกรรมและ System Design) ที่คุณพลาดไม่ได้ว่าคำถามถูกตั้งอย่างไร
  • การบรรยาย เซสชันติว การขาย — เมื่อคุณต้องการบทถอดเสียงที่แม่นยำของคำพูดทั้งสองฝ่าย
  • สายสนทนาหลายภาษา — Whisper เข้าใจหลายสิบภาษา; ภาษาที่ใช้รู้จำเสียงตั้งค่าได้ต่อเซสชัน

ทีละขั้นตอน

  1. ให้สิทธิ์การเข้าถึง บน macOS สองสตรีมต้องการสองสิทธิ์: "Microphone" (เสียงของคุณ) และ "Screen Recording" (เสียงระบบของอีกฝ่าย); หากไม่มี "Screen Recording" จะไม่ได้ยินเสียงอีกฝ่าย ดู สิทธิ์การเข้าถึงบน macOS บน Windows เสียงระบบจะถูกจับโดยไม่ต้องขอสิทธิ์เพิ่มเติม — คุณเพียงต้องการสิทธิ์เข้าถึงไมโครโฟนเท่านั้น; ดู สิทธิ์การเข้าถึงบน Windows
  2. เลือกภาษาสำหรับการถอดเสียง ในการตั้งค่าเซสชัน ให้กำหนดภาษาที่พูด ค่าเริ่มต้นคือ ru Whisper รองรับหลายภาษา ดังนั้นสำหรับการสัมภาษณ์ที่พูดภาษาอังกฤษให้ตั้งเป็น en และสำหรับสายที่ปนหลายภาษาให้ใช้ภาษาหลักของสายนั้น
  3. เปิดโอเวอร์เลย์แล้วกดเล่น ตัวแสดงระดับเสียง (คลื่นเสียง) จะปรากฏใน CommandBar — เป็นการยืนยันว่ามีเสียงเข้ามา
  4. พูดและฟัง คำพูดของคุณจะถูกติดป้าย [Me] ส่วนคำพูดจากเสียงระบบจะถูกติดป้าย [Other] บทถอดเสียงจะอัปเดตใน LiveTranscriptStrip แบบเรียลไทม์
  5. (ทางเลือก) เปิดใช้การแปล หากเปิดใช้การแปลในการตั้งค่าโอเวอร์เลย์ บรรทัดคำแปล (TranslationStrip) จะปรากฏใต้บทถอดเสียง
  6. จบเซสชัน เมื่อคุณเสร็จสิ้น บทถอดเสียงจะถูกบันทึกลงในประวัติ (ยกเว้นในโหมดไม่บันทึกล็อก — ดู ขีดจำกัดและโควต้า)

ทำไมต้องมีสิทธิ์ "Screen Recording" (macOS)

บน macOS เสียงจากแอปอื่น (เสียงของอีกฝ่ายใน Zoom/Meet) จะถูกจับผ่านกลไกการบันทึกหน้าจอ — ซึ่งเป็นฟังก์ชันระบบเดียวกับการจับภาพหน้าจอ ดังนั้น Whisperer จึงขอสิทธิ์ "Screen Recording" ไม่ใช่เพื่อดูหน้าจอของคุณ แต่เพื่อเข้าถึงสตรีมเสียงระบบในเชิงเทคนิค (และเพื่อถ่ายภาพหน้าจอสำหรับคำแนะนำแบบ vision) หากไม่มีสิทธิ์นี้ จะบันทึกได้เพียงไมโครโฟนเท่านั้น — คุณจะได้ยิน แต่อีกฝ่ายจะไม่ได้ยิน

บน Windows จะง่ายกว่า: เสียงระบบของอีกฝ่ายถูกจับโดยไม่ต้องขอสิทธิ์เพิ่มเติม — เพียงสิทธิ์เข้าถึงไมโครโฟนก็เพียงพอ รายละเอียดอยู่ใน สิทธิ์การเข้าถึงบน Windows

ภาพหน้าจอ

📸 [ภาพหน้าจอ: โอเวอร์เลย์พร้อมบทถอดเสียงที่เลื่อนและการติดป้าย [Me]/[Other]]

📸 [ภาพหน้าจอ: การเลือกภาษาสำหรับการถอดเสียงในการตั้งค่าเซสชัน]

📸 [ภาพหน้าจอ: ตัวแสดงระดับเสียง (คลื่นเสียง) ใน CommandBar]

ข้อผิดพลาดที่พบบ่อย

  • ไม่ได้ยินเสียงอีกฝ่าย บทถอดเสียงแสดงเฉพาะ [Me] ยังไม่ได้ให้สิทธิ์ "Screen Recording" เปิด System Settings → Privacy & Security → Screen Recording เปิดใช้ Whisperer แล้วรีสตาร์ตไคลเอนต์
  • บทถอดเสียงเป็นภาษาที่ผิด / มีข้อผิดพลาดในการรู้จำมาก ตั้งค่าภาษาสำหรับการถอดเสียงไม่ถูกต้อง เปลี่ยนภาษาเซสชันให้ตรงกับภาษาที่ใช้สนทนาจริงก่อนเริ่ม
  • ไม่มีตัวแสดงระดับเสียง ยังไม่ได้เลือกอุปกรณ์รับเสียงหรือยังไม่ได้ให้สิทธิ์เข้าถึงไมโครโฟน — ตรวจสอบ "Microphone" ในการตั้งค่าความเป็นส่วนตัวของคุณ
  • กำลังรอให้การบันทึกอัปโหลด ไม่มีการถอดเสียงแบบเป็นชุดของไฟล์ที่บันทึกเสร็จแล้ว — การถอดเสียงทำงานเฉพาะแบบสดระหว่างเซสชันเท่านั้น

แนวทางปฏิบัติที่ดีที่สุด

  • ก่อนการประชุมสำคัญ ให้ทดลองโทรกับเพื่อนร่วมงานและยืนยันว่าอีกฝ่ายปรากฏในบทถอดเสียงเป็น [Other]
  • เปิดใช้การลดเสียงรบกวนในการตั้งค่าโอเวอร์เลย์เมื่ออยู่ในห้องที่มีเสียงดัง — ช่วยเพิ่มความแม่นยำของ Whisper
  • สำหรับสายที่ปนหลายภาษา ให้เลือกภาษาที่พูดเป็นส่วนใหญ่; Whisper รับมือกับการสลับภาษาได้ แต่การตั้งภาษาหลักอย่างชัดเจนจะดีกว่า
  • หากเนื้อห้าเป็นเรื่องละเอียดอ่อน ให้ใช้โหมดไม่บันทึกล็อก — บทถอดเสียงจะไม่ถูกบันทึกลงฐานข้อมูล (แต่ยังคงใช้นาทีอยู่ดี)
  • รักษาการออกเสียงให้ชัดเจนและหลีกเลี่ยงการพูดทับกัน — ประโยคที่แยกจากกันจะถูกติดป้ายตามผู้พูดได้แม่นยำกว่า

บทความที่เกี่ยวข้อง