Bản ghi lời nói và Người nói

Whisperer phiên âm lời nói theo thời gian thực bằng Whisper — mô hình đa ngôn ngữ của OpenAI. Quá trình phân biệt người nói (diarization) chạy đồng thời: lời của người dùng và lời của đối phương được gắn nhãn khác nhau, giúp bản ghi dễ đọc hơn và nâng cao độ chính xác của các câu trả lời do AI tạo ra.

Khi nào nên đọc bài này

Đọc bài viết này để hiểu:

  • cách cấu hình ngôn ngữ nhận dạng;
  • vì sao một số câu thoại được gắn nhãn [Me] còn số khác là [Other];
  • những ngôn ngữ nào được hỗ trợ và cách chuyển đổi giữa chúng.

Cách phiên âm hoạt động

Whisperer thu hai luồng âm thanh:

Luồng Nguồn Nhãn
Giọng người dùng Micrô [Me]
Giọng đối phương Âm thanh hệ thống (quyền Screen Recording trên macOS / âm thanh hệ thống trên Windows) [Other]

Mỗi đoạn âm thanh (~0,8 giây) được gửi đến máy chủ kèm nhãn người nói và được nhận dạng độc lập. Kết quả hiển thị tức thì trong LiveTranscriptStrip — dải chữ chạy ở phía dưới lớp phủ (overlay).

Ngôn ngữ phiên âm

Ngôn ngữ nhận dạng được thiết lập ở cấp phiên làm việc (session):

  1. Mở Settings trong ứng dụng khách (biểu tượng bánh răng) hoặc trong bảng điều khiển web.
  2. Tìm trường Transcription Language.
  3. Chọn ngôn ngữ mong muốn từ danh sách mã ngôn ngữ tiêu chuẩn (ví dụ en, ru, zh, de).
  4. Bắt đầu một phiên mới — ngôn ngữ sẽ được áp dụng cho phiên đó.

Whisper hỗ trợ hơn 90 ngôn ngữ. Nếu những người tham gia cuộc họp nói các ngôn ngữ khác nhau, Whisper sẽ tự động nhận diện từng đoạn trong phạm vi "gợi ý" ngôn ngữ đã chọn.

📸 [Ảnh chụp màn hình: dải chữ chạy LiveTranscriptStrip với các câu thoại [Me] và [Other]]

Bản ghi đầy đủ trong bảng điều khiển

Sau khi phiên kết thúc, bản ghi đầy đủ có sẵn trong mục History của bảng điều khiển web. Bạn có thể:

  • đọc bản ghi được lọc theo người nói;
  • sao chép toàn bộ hoặc từng đoạn;
  • dùng làm cơ sở cho phân tích và sơ đồ tư duy.

📸 [Ảnh chụp màn hình: trang phiên trong bảng điều khiển — các khối bản ghi kèm nhãn người nói]

Lỗi thường gặp

Lỗi Nguyên nhân Cách khắc phục
Giọng đối phương không được phiên âm Chưa cấp quyền Screen Recording (macOS) hoặc không có âm thanh hệ thống (Windows) Quyền trên macOS / Windows
Sai ngôn ngữ trong bản ghi Chọn sai ngôn ngữ phiên âm Đổi ngôn ngữ trong cài đặt và khởi động lại phiên
Văn bản bị lẫn giữa các người nói Micrô thu cả hai luồng âm thanh (vọng âm) Dùng tai nghe hoặc giảm âm lượng loa
Không có văn bản khi kết nối yếu WebSocket bị ngắt trước khi phản hồi của Whisper đến Cải thiện kết nối; Whisperer sẽ tự động kết nối lại

Thực hành tốt nhất

  • Dùng tai nghe — điều này loại bỏ vọng âm và cải thiện việc tách biệt người nói.
  • Chọn đúng ngôn ngữ trước phiên — đổi ngôn ngữ giữa lúc ghi sẽ tạo ra một phiên mới.
  • Với các cuộc gọi song ngữ, bạn có thể chọn ngôn ngữ của đối phương: Whisper vẫn sẽ nhận dạng được lời của bạn nhờ gợi ý ngữ cảnh.

Bài viết liên quan