การถอดเสียงแบบสด (Live transcription)
ภาพรวม
การถอดเสียงแบบสดคือการถอดบทสนทนาในสายของคุณแบบเรียลไทม์ Whisperer จะคอยฟังเสียงผ่านสองสตรีมที่เป็นอิสระจากกัน — ไมโครโฟนของคุณ (เสียงของคุณ) และเสียงระบบ (เสียงของอีกฝ่าย) — แล้วรู้จำคำพูดและติดป้ายกำกับผู้พูดให้แต่ละประโยคทันที: [Me] และ [Other] ข้อความจะเลื่อนแสดงในโอเวอร์เลย์ (LiveTranscriptStrip) และทำหน้าที่เป็นบริบทสำหรับคำแนะนำจาก AI
การรู้จำเสียงทำงานผ่านโมเดล Whisper แบบเรียลไทม์ การถอดเสียงเป็นแบบ สตรีมมิงเท่านั้น (เรียลไทม์): เสียงจะถูกส่งไปรู้จำเป็นช่วงสั้น ๆ ตามที่กำลังบันทึก ไม่มีการอัปโหลดไฟล์เสียงที่บันทึกเสร็จแล้วเพื่อถอดเสียงแบบเป็นชุด — Whisperer ถูกสร้างมาเพื่อการสนทนาสด ไม่ใช่เพื่อประมวลผลการบันทึกภายหลัง
ใช้เมื่อไหร่
- วิดีโอคอลทุกรูปแบบ Whisperer ทำงานเป็นโอเวอร์เลย์ทับ Zoom, Google Meet, Microsoft Teams, Telegram, Discord และบริการอื่น ๆ — โดยไม่ต้องเชื่อมต่อแยกต่างหาก
- การสัมภาษณ์ (ทั้งเชิงพฤติกรรมและ System Design) ที่คุณพลาดไม่ได้ว่าคำถามถูกตั้งอย่างไร
- การบรรยาย เซสชันติว การขาย — เมื่อคุณต้องการบทถอดเสียงที่แม่นยำของคำพูดทั้งสองฝ่าย
- สายสนทนาหลายภาษา — Whisper เข้าใจหลายสิบภาษา; ภาษาที่ใช้รู้จำเสียงตั้งค่าได้ต่อเซสชัน
ทีละขั้นตอน
- ให้สิทธิ์การเข้าถึง บน macOS สองสตรีมต้องการสองสิทธิ์: "Microphone" (เสียงของคุณ) และ "Screen Recording" (เสียงระบบของอีกฝ่าย); หากไม่มี "Screen Recording" จะไม่ได้ยินเสียงอีกฝ่าย ดู สิทธิ์การเข้าถึงบน macOS บน Windows เสียงระบบจะถูกจับโดยไม่ต้องขอสิทธิ์เพิ่มเติม — คุณเพียงต้องการสิทธิ์เข้าถึงไมโครโฟนเท่านั้น; ดู สิทธิ์การเข้าถึงบน Windows
- เลือกภาษาสำหรับการถอดเสียง ในการตั้งค่าเซสชัน ให้กำหนดภาษาที่พูด ค่าเริ่มต้นคือ
ruWhisper รองรับหลายภาษา ดังนั้นสำหรับการสัมภาษณ์ที่พูดภาษาอังกฤษให้ตั้งเป็นenและสำหรับสายที่ปนหลายภาษาให้ใช้ภาษาหลักของสายนั้น - เปิดโอเวอร์เลย์แล้วกดเล่น ตัวแสดงระดับเสียง (คลื่นเสียง) จะปรากฏใน CommandBar — เป็นการยืนยันว่ามีเสียงเข้ามา
- พูดและฟัง คำพูดของคุณจะถูกติดป้าย
[Me]ส่วนคำพูดจากเสียงระบบจะถูกติดป้าย[Other]บทถอดเสียงจะอัปเดตใน LiveTranscriptStrip แบบเรียลไทม์ - (ทางเลือก) เปิดใช้การแปล หากเปิดใช้การแปลในการตั้งค่าโอเวอร์เลย์ บรรทัดคำแปล (TranslationStrip) จะปรากฏใต้บทถอดเสียง
- จบเซสชัน เมื่อคุณเสร็จสิ้น บทถอดเสียงจะถูกบันทึกลงในประวัติ (ยกเว้นในโหมดไม่บันทึกล็อก — ดู ขีดจำกัดและโควต้า)
ทำไมต้องมีสิทธิ์ "Screen Recording" (macOS)
บน macOS เสียงจากแอปอื่น (เสียงของอีกฝ่ายใน Zoom/Meet) จะถูกจับผ่านกลไกการบันทึกหน้าจอ — ซึ่งเป็นฟังก์ชันระบบเดียวกับการจับภาพหน้าจอ ดังนั้น Whisperer จึงขอสิทธิ์ "Screen Recording" ไม่ใช่เพื่อดูหน้าจอของคุณ แต่เพื่อเข้าถึงสตรีมเสียงระบบในเชิงเทคนิค (และเพื่อถ่ายภาพหน้าจอสำหรับคำแนะนำแบบ vision) หากไม่มีสิทธิ์นี้ จะบันทึกได้เพียงไมโครโฟนเท่านั้น — คุณจะได้ยิน แต่อีกฝ่ายจะไม่ได้ยิน
บน Windows จะง่ายกว่า: เสียงระบบของอีกฝ่ายถูกจับโดยไม่ต้องขอสิทธิ์เพิ่มเติม — เพียงสิทธิ์เข้าถึงไมโครโฟนก็เพียงพอ รายละเอียดอยู่ใน สิทธิ์การเข้าถึงบน Windows
ภาพหน้าจอ
📸 [ภาพหน้าจอ: โอเวอร์เลย์พร้อมบทถอดเสียงที่เลื่อนและการติดป้าย [Me]/[Other]]
📸 [ภาพหน้าจอ: การเลือกภาษาสำหรับการถอดเสียงในการตั้งค่าเซสชัน]
📸 [ภาพหน้าจอ: ตัวแสดงระดับเสียง (คลื่นเสียง) ใน CommandBar]
ข้อผิดพลาดที่พบบ่อย
- ไม่ได้ยินเสียงอีกฝ่าย บทถอดเสียงแสดงเฉพาะ
[Me]ยังไม่ได้ให้สิทธิ์ "Screen Recording" เปิด System Settings → Privacy & Security → Screen Recording เปิดใช้ Whisperer แล้วรีสตาร์ตไคลเอนต์ - บทถอดเสียงเป็นภาษาที่ผิด / มีข้อผิดพลาดในการรู้จำมาก ตั้งค่าภาษาสำหรับการถอดเสียงไม่ถูกต้อง เปลี่ยนภาษาเซสชันให้ตรงกับภาษาที่ใช้สนทนาจริงก่อนเริ่ม
- ไม่มีตัวแสดงระดับเสียง ยังไม่ได้เลือกอุปกรณ์รับเสียงหรือยังไม่ได้ให้สิทธิ์เข้าถึงไมโครโฟน — ตรวจสอบ "Microphone" ในการตั้งค่าความเป็นส่วนตัวของคุณ
- กำลังรอให้การบันทึกอัปโหลด ไม่มีการถอดเสียงแบบเป็นชุดของไฟล์ที่บันทึกเสร็จแล้ว — การถอดเสียงทำงานเฉพาะแบบสดระหว่างเซสชันเท่านั้น
แนวทางปฏิบัติที่ดีที่สุด
- ก่อนการประชุมสำคัญ ให้ทดลองโทรกับเพื่อนร่วมงานและยืนยันว่าอีกฝ่ายปรากฏในบทถอดเสียงเป็น
[Other] - เปิดใช้การลดเสียงรบกวนในการตั้งค่าโอเวอร์เลย์เมื่ออยู่ในห้องที่มีเสียงดัง — ช่วยเพิ่มความแม่นยำของ Whisper
- สำหรับสายที่ปนหลายภาษา ให้เลือกภาษาที่พูดเป็นส่วนใหญ่; Whisper รับมือกับการสลับภาษาได้ แต่การตั้งภาษาหลักอย่างชัดเจนจะดีกว่า
- หากเนื้อห้าเป็นเรื่องละเอียดอ่อน ให้ใช้โหมดไม่บันทึกล็อก — บทถอดเสียงจะไม่ถูกบันทึกลงฐานข้อมูล (แต่ยังคงใช้นาทีอยู่ดี)
- รักษาการออกเสียงให้ชัดเจนและหลีกเลี่ยงการพูดทับกัน — ประโยคที่แยกจากกันจะถูกติดป้ายตามผู้พูดได้แม่นยำกว่า