实时 AI 建议
概述
AI 建议是 Whisperer 在通话过程中根据实时转录文本、您的问题和知识库即时生成的回答。回答以流式方式传入悬浮窗的 AnswerArea:文字在生成过程中逐渐显示,支持 Markdown、推理展开以及分页(1/N)。建议支持多种模式——从普通回答到截图分析,再到带图表的系统设计。
所有请求均通过我们的 AI 服务商处理,模型涵盖 Claude、GPT、DeepSeek、Qwen、Gemini、Grok 和 Llama 等系列。可用模型取决于您的套餐(分级访问):顶级前沿模型仅在 Max 套餐中提供。
适用场景
- 面试: 快速组织行为面试问题的回答,或草拟系统设计方案。
- 销售与谈判: 找到论点、回应异议、核实事实。
- 技术面试/结对编程: 在编程模式下获取代码。
- 理解屏幕内容: 在视觉模式下发送白板、图表或代码的截图。
操作步骤
- 以文字提问。 在 CommandBar 输入框中输入问题并按回车——回答开始流式传入 AnswerArea。
- 或"根据所听内容"提问。 在空输入框时按回车——Whisperer 会取最新的转录片段(对方的问题)并给出回答。当问题刚被大声说出时非常方便。
- 或附上截图。 截取一张截图(使用 captureScreenshot 快捷键)——画面进入视觉模式,模型将分析图片。
- 阅读流式回答。 文字在生成过程中逐渐出现。若存在推理过程,可展开查看。
- 翻页。 较长的回答和一系列请求会分页显示——通过 AnswerArea 中的 1/N 分页控件切换。
回答模式
- 普通回答(角色
responses)——综合上下文和知识库对问题给出文字回答。 - 编程(角色
coding)——代码生成与解释,针对编程优化的模型。 - 视觉/多截图(角色
vision)——分析单张图片或多张累积帧(截图数组发送至视觉端点)。适用于单屏无法容纳的长任务。 - 系统设计(角色
system_design)——带 Mermaid 图表的结构化回答(组件、数据流、架构图)。
提示词的组装方式(简述)
系统提示词按优先级从上到下组装:
- 角色提示词 — 您在 Prompt Studio 中设置的个人模板。
- 用户上下文 — 您填写的关于自己和角色的信息。
- RAG 块 — 从知识库中动态为每次请求选取的相关片段。
不同的模型角色处理不同的任务:responses(对话)、coding(代码)、vision(图片)、system_design(图表)、generation(思维导图)、transcription(Whisper)、embedding(RAG 向量化)。
模型分级访问
Free 套餐提供基础模型;付费套餐提供更广泛的选择。前沿模型(顶级模型:Claude Opus、旗舰 GPT 等)仅在 Max 套餐中提供。更多信息请参见套餐及包含内容。
截图
📸 [截图:AnswerArea 中的流式回答及 1/N 分页]
📸 [截图:通过空回车发起"根据所听内容"的请求]
📸 [截图:带 Mermaid 图表的系统设计回答]
📸 [截图:附有截图的视觉模式]
常见问题
- 回车没有发送任何内容。 若输入框为空,Whisperer 会从转录文本获取问题——请确保对方的声音被听到(需要"屏幕录制"权限),或直接输入文字问题。
- 前沿模型不可用。 顶级模型仅在 Max 套餐中启用——在 Free/Start/Pro 套餐中,将自动选择最近可用的模型。
- 上下文"不起作用"。 用户上下文是关于您的参考信息,而非指令;实际问题需在输入框中提出。
- 截图未被分析。 多截图和视觉功能并非所有套餐都支持——请在套餐中查看功能说明。
最佳实践
- 提出简短、具体的问题——流式传输启动更快,回答更准确。
- 对于屏幕上的长任务,累积多个帧后以多截图方式发送,而非逐一发送。
- 建立您的知识库——RAG 会将您的事实融入回答并减少"幻觉"。
- 根据您的任务(面试/销售/教学)设置个性化的角色提示词模板。
- 对于架构问题,使用系统设计模式——您将获得现成的 Mermaid 图表,而非纯文字描述。