转录与说话人

Whisperer 使用 Whisper(OpenAI 的多语言模型)实时转录语音。说话人区分同步进行:用户的发言和对方的发言以不同标签区分,使转录更易阅读,并提高 AI 回复的准确性。

何时阅读本文

阅读本文以了解:

  • 如何配置识别语言;
  • 为何某些发言标注为 [Me],另一些标注为 [Other];
  • 支持哪些语言以及如何切换语言。

转录的工作原理

Whisperer 捕获两路音频流:

音频流 来源 标签
用户声音 麦克风 [Me]
对方声音 系统音频(macOS 需要屏幕录制权限 / Windows 系统音频) [Other]

每个音频块(约 0.8 秒)连同说话人标签一并发送到服务器,独立进行识别。结果即时显示在 LiveTranscriptStrip 中——覆盖层底部的滚动字幕条。

转录语言

识别语言在会话级别设置:

  1. 打开客户端中的设置(齿轮图标)或网页控制台。
  2. 找到转录语言字段。
  3. 从标准语言代码列表中选择所需语言(例如 enruzhde)。
  4. 开始新会话——语言将应用于该会话。

Whisper 支持超过 90 种语言。如果会议参与者使用不同语言,Whisper 会在所选语言"提示"范围内自动检测每个音频块的语言。

📸 [截图:LiveTranscriptStrip 滚动字幕条,显示带 [Me] 和 [Other] 标签的发言]

控制台中的完整转录

会话结束后,完整转录可在网页控制台的历史记录部分查看。你可以:

  • 按说话人筛选阅读;
  • 全部或部分复制;
  • 作为分析和思维导图的基础数据使用。

📸 [截图:控制台中的会话页面——带说话人标签的转录块]

常见错误

错误 原因 解决方法
对方声音未被转录 未授予屏幕录制权限(macOS)或系统音频不可用(Windows) macOS 权限 / Windows
转录中语言错误 选择了错误的转录语言 在设置中更改语言并重启会话
文字在说话人之间混淆 麦克风同时捕获了两路音频(回声) 使用耳机或降低扬声器音量
网络较差时没有文字 WebSocket 在 Whisper 返回结果前断开 改善网络连接;Whisperer 会自动重连

最佳实践

  • 使用耳机 — 可消除回声,改善说话人分离效果。
  • 在会话前选择正确的语言 — 录制中途更改语言会创建新会话。
  • 双语通话时,可以选择对方的语言:Whisper 依然能借助上下文提示识别你的语音。

相关文章