转录与说话人

Whisperer 使用 Whisper（OpenAI 的多语言模型）实时转录语音。说话人区分同步进行：用户的发言和对方的发言以不同标签区分，使转录更易阅读，并提高 AI 回复的准确性。

何时阅读本文

阅读本文以了解：

Whisperer 捕获两路音频流：

音频流	来源	标签
用户声音	麦克风	[Me]
对方声音	系统音频（macOS 需要屏幕录制权限 / Windows 系统音频）	[Other]

每个音频块（约 0.8 秒）连同说话人标签一并发送到服务器，独立进行识别。结果即时显示在 LiveTranscriptStrip 中——覆盖层底部的滚动字幕条。

识别语言在会话级别设置：

Whisper 支持超过 90 种语言。如果会议参与者使用不同语言，Whisper 会在所选语言"提示"范围内自动检测每个音频块的语言。

📸 [截图：LiveTranscriptStrip 滚动字幕条，显示带 [Me] 和 [Other] 标签的发言]

会话结束后，完整转录可在网页控制台的历史记录部分查看。你可以：

📸 [截图：控制台中的会话页面——带说话人标签的转录块]

错误	原因	解决方法
对方声音未被转录	未授予屏幕录制权限（macOS）或系统音频不可用（Windows）	macOS 权限 / Windows
转录中语言错误	选择了错误的转录语言	在设置中更改语言并重启会话
文字在说话人之间混淆	麦克风同时捕获了两路音频（回声）	使用耳机或降低扬声器音量
网络较差时没有文字	WebSocket 在 Whisper 返回结果前断开	改善网络连接；Whisperer 会自动重连