实时转录

概述

实时转录是您通话的实时文字记录。Whisperer 通过两路独立音频流监听——您的麦克风(您的声音)和系统音频(对方的声音)——识别语音并即时标注说话人:[Me][Other]。文字在悬浮窗(LiveTranscriptStrip)中滚动显示,并作为 AI 建议的上下文输入。

识别通过 Whisper 模型实时运行。转录仅支持流式模式(实时):音频以短片段的形式边录制边发送识别。不支持上传完整音频文件进行批量转录——Whisperer 专为实时通话设计,而非录音后处理。

适用场景

  • 任何视频通话。 Whisperer 作为悬浮窗叠加在 Zoom、Google Meet、Microsoft Teams、Telegram、Discord 及任何其他服务上方——无需单独集成。
  • 面试(行为面试和系统设计),当您不能错过问题的具体措辞时。
  • 讲座、辅导课程、销售——需要准确记录双方发言时。
  • 多语言通话——Whisper 支持数十种语言;识别语言可按会话设置。

操作步骤

  1. 授予权限。macOS 上,两路音频流需要两项授权:"麦克风"(您的声音)和"屏幕录制"(对方的系统音频);没有"屏幕录制"权限,将听不到对方声音。参见 macOS 权限。在 Windows 上,系统音频无需额外权限——只需麦克风访问权限;参见 Windows 权限
  2. 选择转录语言。 在会话设置中设置口语语言。默认为 ru。Whisper 支持多语言,因此英语面试请设置 en,混合语言通话请使用通话主要语言。
  3. 打开悬浮窗并按下播放。 CommandBar 中会出现音量指示器(波形)——这表示音频已接入。
  4. 说话并倾听。 您的发言标记为 [Me],系统音频中的发言标记为 [Other]。转录文本在 LiveTranscriptStrip 中实时更新。
  5. (可选)启用翻译。 若在悬浮窗设置中启用了翻译,转录文本下方会出现翻译条(TranslationStrip)。
  6. 结束会话。 完成后,转录文本将保存到历史记录(无日志模式除外——参见限制与配额)。

为什么需要"屏幕录制"权限(macOS)

在 macOS 上,来自其他应用的音频(Zoom/Meet 中对方的声音)通过屏幕录制机制捕获——与屏幕截图使用相同的系统机制。因此 Whisperer 请求"屏幕录制"权限不是为了观看您的屏幕,而是在技术上获取系统音频流(以及截图用于视觉建议)。没有此授权,只能录制麦克风——您的声音被听到,对方的声音则无法捕获。

Windows 上更简单:对方的系统音频无需任何额外权限即可捕获——麦克风访问权限就足够了。详情请参见 Windows 权限

截图

📸 [截图:带有滚动转录文本及 [Me]/[Other] 标注的悬浮窗]

📸 [截图:在会话设置中选择转录语言]

📸 [截图:CommandBar 中的音量指示器(波形)]

常见问题

  • 听不到对方声音,转录文本只显示 [Me] "屏幕录制"权限未授予。打开系统设置 → 隐私与安全性 → 屏幕录制,启用 Whisperer,然后重启客户端。
  • 转录语言错误/大量识别错误。 转录语言设置不正确。开始前请将会话语言更改为通话实际使用的语言。
  • 没有音量指示器。 未选择输入设备或麦克风访问权限未授予——请检查隐私设置中的"麦克风"。
  • 等待录音上传。 没有完整文件的批量转录——转录只在会话期间实时工作。

最佳实践

  • 重要会议前,与同事进行测试通话,确认对方在转录文本中以 [Other] 显示。
  • 在嘈杂环境中,在悬浮窗设置中启用降噪功能——这可以提高 Whisper 的准确性。
  • 对于混合语言通话,选择使用频率最高的语言;Whisper 能处理语言切换,但最好明确设置基础语言。
  • 若内容敏感,请使用无日志模式——转录文本不会保存到数据库(但分钟数仍会消耗)。
  • 保持清晰的发音,避免相互打断——分开的话语能更准确地按说话人标记。

相关文章