转录与说话人
Whisperer 使用 Whisper(OpenAI 的多语言模型)实时转录语音。说话人区分同步进行:用户的发言和对方的发言以不同标签区分,使转录更易阅读,并提高 AI 回复的准确性。
何时阅读本文
阅读本文以了解:
- 如何配置识别语言;
- 为何某些发言标注为 [Me],另一些标注为 [Other];
- 支持哪些语言以及如何切换语言。
转录的工作原理
Whisperer 捕获两路音频流:
| 音频流 | 来源 | 标签 |
|---|---|---|
| 用户声音 | 麦克风 | [Me] |
| 对方声音 | 系统音频(macOS 需要屏幕录制权限 / Windows 系统音频) | [Other] |
每个音频块(约 0.8 秒)连同说话人标签一并发送到服务器,独立进行识别。结果即时显示在 LiveTranscriptStrip 中——覆盖层底部的滚动字幕条。
转录语言
识别语言在会话级别设置:
- 打开客户端中的设置(齿轮图标)或网页控制台。
- 找到转录语言字段。
- 从标准语言代码列表中选择所需语言(例如
en、ru、zh、de)。 - 开始新会话——语言将应用于该会话。
Whisper 支持超过 90 种语言。如果会议参与者使用不同语言,Whisper 会在所选语言"提示"范围内自动检测每个音频块的语言。
📸 [截图:LiveTranscriptStrip 滚动字幕条,显示带 [Me] 和 [Other] 标签的发言]
控制台中的完整转录
会话结束后,完整转录可在网页控制台的历史记录部分查看。你可以:
- 按说话人筛选阅读;
- 全部或部分复制;
- 作为分析和思维导图的基础数据使用。
📸 [截图:控制台中的会话页面——带说话人标签的转录块]
常见错误
| 错误 | 原因 | 解决方法 |
|---|---|---|
| 对方声音未被转录 | 未授予屏幕录制权限(macOS)或系统音频不可用(Windows) | macOS 权限 / Windows |
| 转录中语言错误 | 选择了错误的转录语言 | 在设置中更改语言并重启会话 |
| 文字在说话人之间混淆 | 麦克风同时捕获了两路音频(回声) | 使用耳机或降低扬声器音量 |
| 网络较差时没有文字 | WebSocket 在 Whisper 返回结果前断开 | 改善网络连接;Whisperer 会自动重连 |
最佳实践
- 使用耳机 — 可消除回声,改善说话人分离效果。
- 在会话前选择正确的语言 — 录制中途更改语言会创建新会话。
- 双语通话时,可以选择对方的语言:Whisper 依然能借助上下文提示识别你的语音。