Phiên âm trực tiếp

Tổng quan

Phiên âm trực tiếp là bản ghi lời nói theo thời gian thực trong cuộc gọi của bạn. Whisperer lắng nghe âm thanh qua hai luồng độc lập — micro của bạn (giọng nói của bạn) và âm thanh hệ thống (giọng nói của người đối diện) — nhận dạng lời nói và gắn nhãn tức thì cho từng phát ngôn theo người nói: [Me] và [Other]. Văn bản cuộn trong lớp phủ (LiveTranscriptStrip) và đóng vai trò làm ngữ cảnh cho các gợi ý của AI.

Việc nhận dạng được thực hiện qua mô hình Whisper theo thời gian thực. Phiên âm chỉ ở chế độ truyền phát (streaming) (thời gian thực): âm thanh được gửi đi để nhận dạng theo từng đoạn ngắn ngay khi được ghi lại. Không có việc tải lên một tệp âm thanh hoàn chỉnh để phiên âm theo lô — Whisperer được xây dựng cho các cuộc gọi trực tiếp, không phải để xử lý hậu kỳ các bản ghi.

Khi nào nên dùng

Bất kỳ cuộc gọi video nào. Whisperer hoạt động như một lớp phủ bên trên Zoom, Google Meet, Microsoft Teams, Telegram, Discord và bất kỳ dịch vụ nào khác — không cần tích hợp riêng.
Phỏng vấn (hành vi và System Design), nơi bạn không thể bỏ lỡ cách diễn đạt một câu hỏi.
Bài giảng, các buổi gia sư, bán hàng — khi bạn cần một bản phiên âm chính xác phần phát biểu của cả hai bên.
Cuộc gọi đa ngôn ngữ — Whisper hiểu hàng chục ngôn ngữ; ngôn ngữ nhận dạng được đặt riêng cho từng phiên.

Từng bước

Cấp quyền. Trên macOS, hai luồng cần hai quyền: "Microphone" (giọng nói của bạn) và "Screen Recording" (âm thanh hệ thống của người đối diện); nếu không có "Screen Recording" thì sẽ không nghe được người đối diện. Xem Quyền trên macOS. Trên Windows, âm thanh hệ thống được thu mà không cần bất kỳ quyền bổ sung nào — bạn chỉ cần quyền truy cập micro; xem Quyền trên Windows.
Chọn ngôn ngữ phiên âm. Trong phần cài đặt phiên, hãy đặt ngôn ngữ nói. Mặc định là ru. Whisper hỗ trợ đa ngôn ngữ, vì vậy với một cuộc phỏng vấn bằng tiếng Anh hãy đặt en, còn với cuộc gọi pha trộn thì dùng ngôn ngữ chính của cuộc gọi.
Mở lớp phủ và nhấn phát. Một chỉ báo âm lượng (dạng sóng) xuất hiện trong CommandBar — nó xác nhận rằng âm thanh đang được nhận vào.
Nói và lắng nghe. Phần phát biểu của bạn được gắn nhãn [Me], phần từ âm thanh hệ thống được gắn nhãn [Other]. Bản phiên âm cập nhật trong LiveTranscriptStrip theo thời gian thực.
(Tùy chọn) Bật dịch. Nếu bật dịch trong phần cài đặt lớp phủ, một dòng dịch (TranslationStrip) sẽ xuất hiện bên dưới bản phiên âm.
Kết thúc phiên. Khi hoàn tất, bản phiên âm được lưu vào lịch sử (trừ chế độ không lưu nhật ký — xem Giới hạn và hạn mức).

Vì sao cần quyền "Screen Recording" (macOS)

Trên macOS, âm thanh từ các ứng dụng khác (giọng nói của người đối diện trong Zoom/Meet) được thu thông qua cơ chế ghi màn hình — cùng một tiện ích hệ thống như chụp màn hình. Do đó Whisperer yêu cầu quyền "Screen Recording" không phải để theo dõi màn hình của bạn, mà về mặt kỹ thuật là để lấy được luồng âm thanh hệ thống (và để chụp ảnh màn hình cho các gợi ý dựa trên hình ảnh). Nếu không có quyền này, chỉ micro được ghi lại — bạn được nghe thấy, còn người đối diện thì không.

Trên Windows thì đơn giản hơn: âm thanh hệ thống của người đối diện được thu mà không cần bất kỳ quyền bổ sung nào — chỉ cần quyền truy cập micro là đủ. Chi tiết có trong Quyền trên Windows.

Ảnh chụp màn hình

📸 [Ảnh chụp màn hình: lớp phủ với bản phiên âm cuộn và gắn nhãn [Me]/[Other]]

📸 [Ảnh chụp màn hình: chọn ngôn ngữ phiên âm trong cài đặt phiên]

📸 [Ảnh chụp màn hình: chỉ báo âm lượng (dạng sóng) trong CommandBar]

Những lỗi thường gặp

Không nghe được người đối diện, bản phiên âm chỉ hiển thị [Me]. Quyền "Screen Recording" chưa được cấp. Mở System Settings → Privacy & Security → Screen Recording, bật Whisperer, sau đó khởi động lại ứng dụng.
Bản phiên âm sai ngôn ngữ / có nhiều lỗi nhận dạng. Ngôn ngữ phiên âm được đặt sai. Hãy đổi ngôn ngữ phiên sang ngôn ngữ thực tế của cuộc trò chuyện trước khi bắt đầu.
Không có chỉ báo âm lượng. Chưa chọn thiết bị đầu vào hoặc chưa cấp quyền truy cập micro — hãy kiểm tra "Microphone" trong cài đặt quyền riêng tư của bạn.
Đang chờ tải lên một bản ghi. Không có phiên âm theo lô cho một tệp đã hoàn chỉnh — phiên âm chỉ hoạt động trực tiếp trong một phiên.

Thực hành tốt nhất

Trước một cuộc họp quan trọng, hãy thực hiện một cuộc gọi thử với đồng nghiệp và xác nhận rằng người đối diện hiển thị trong bản phiên âm là [Other].
Bật khử nhiễu trong phần cài đặt lớp phủ khi ở phòng ồn ào — điều này cải thiện độ chính xác của Whisper.
Với các cuộc gọi pha trộn ngôn ngữ, hãy chọn ngôn ngữ được nói nhiều nhất; Whisper xử lý được việc chuyển đổi, nhưng tốt hơn là đặt rõ ngôn ngữ cơ bản.
Nếu nội dung nhạy cảm, hãy dùng chế độ không lưu nhật ký — bản phiên âm sẽ không được lưu vào cơ sở dữ liệu (tuy nhiên số phút vẫn bị tính).
Giữ phát âm rõ ràng và tránh nói chồng lên nhau — các phát ngôn riêng biệt sẽ được gắn nhãn theo người nói chính xác hơn.