实时转录
概述
实时转录是您通话的实时文字记录。Whisperer 通过两路独立音频流监听——您的麦克风(您的声音)和系统音频(对方的声音)——识别语音并即时标注说话人:[Me] 和 [Other]。文字在悬浮窗(LiveTranscriptStrip)中滚动显示,并作为 AI 建议的上下文输入。
识别通过 Whisper 模型实时运行。转录仅支持流式模式(实时):音频以短片段的形式边录制边发送识别。不支持上传完整音频文件进行批量转录——Whisperer 专为实时通话设计,而非录音后处理。
适用场景
- 任何视频通话。 Whisperer 作为悬浮窗叠加在 Zoom、Google Meet、Microsoft Teams、Telegram、Discord 及任何其他服务上方——无需单独集成。
- 面试(行为面试和系统设计),当您不能错过问题的具体措辞时。
- 讲座、辅导课程、销售——需要准确记录双方发言时。
- 多语言通话——Whisper 支持数十种语言;识别语言可按会话设置。
操作步骤
- 授予权限。 在 macOS 上,两路音频流需要两项授权:"麦克风"(您的声音)和"屏幕录制"(对方的系统音频);没有"屏幕录制"权限,将听不到对方声音。参见 macOS 权限。在 Windows 上,系统音频无需额外权限——只需麦克风访问权限;参见 Windows 权限。
- 选择转录语言。 在会话设置中设置口语语言。默认为
ru。Whisper 支持多语言,因此英语面试请设置en,混合语言通话请使用通话主要语言。 - 打开悬浮窗并按下播放。 CommandBar 中会出现音量指示器(波形)——这表示音频已接入。
- 说话并倾听。 您的发言标记为
[Me],系统音频中的发言标记为[Other]。转录文本在 LiveTranscriptStrip 中实时更新。 - (可选)启用翻译。 若在悬浮窗设置中启用了翻译,转录文本下方会出现翻译条(TranslationStrip)。
- 结束会话。 完成后,转录文本将保存到历史记录(无日志模式除外——参见限制与配额)。
为什么需要"屏幕录制"权限(macOS)
在 macOS 上,来自其他应用的音频(Zoom/Meet 中对方的声音)通过屏幕录制机制捕获——与屏幕截图使用相同的系统机制。因此 Whisperer 请求"屏幕录制"权限不是为了观看您的屏幕,而是在技术上获取系统音频流(以及截图用于视觉建议)。没有此授权,只能录制麦克风——您的声音被听到,对方的声音则无法捕获。
在 Windows 上更简单:对方的系统音频无需任何额外权限即可捕获——麦克风访问权限就足够了。详情请参见 Windows 权限。
截图
📸 [截图:带有滚动转录文本及 [Me]/[Other] 标注的悬浮窗]
📸 [截图:在会话设置中选择转录语言]
📸 [截图:CommandBar 中的音量指示器(波形)]
常见问题
- 听不到对方声音,转录文本只显示
[Me]。 "屏幕录制"权限未授予。打开系统设置 → 隐私与安全性 → 屏幕录制,启用 Whisperer,然后重启客户端。 - 转录语言错误/大量识别错误。 转录语言设置不正确。开始前请将会话语言更改为通话实际使用的语言。
- 没有音量指示器。 未选择输入设备或麦克风访问权限未授予——请检查隐私设置中的"麦克风"。
- 等待录音上传。 没有完整文件的批量转录——转录只在会话期间实时工作。
最佳实践
- 重要会议前,与同事进行测试通话,确认对方在转录文本中以
[Other]显示。 - 在嘈杂环境中,在悬浮窗设置中启用降噪功能——这可以提高 Whisper 的准确性。
- 对于混合语言通话,选择使用频率最高的语言;Whisper 能处理语言切换,但最好明确设置基础语言。
- 若内容敏感,请使用无日志模式——转录文本不会保存到数据库(但分钟数仍会消耗)。
- 保持清晰的发音,避免相互打断——分开的话语能更准确地按说话人标记。