实时 AI 建议

概述

AI 建议是 Whisperer 在通话过程中根据实时转录文本、您的问题和知识库即时生成的回答。回答以流式方式传入悬浮窗的 AnswerArea:文字在生成过程中逐渐显示,支持 Markdown、推理展开以及分页(1/N)。建议支持多种模式——从普通回答到截图分析,再到带图表的系统设计。

所有请求均通过我们的 AI 服务商处理,模型涵盖 Claude、GPT、DeepSeek、Qwen、Gemini、Grok 和 Llama 等系列。可用模型取决于您的套餐(分级访问):顶级前沿模型仅在 Max 套餐中提供。

适用场景

  • 面试: 快速组织行为面试问题的回答,或草拟系统设计方案。
  • 销售与谈判: 找到论点、回应异议、核实事实。
  • 技术面试/结对编程: 在编程模式下获取代码。
  • 理解屏幕内容: 在视觉模式下发送白板、图表或代码的截图。

操作步骤

  1. 以文字提问。 在 CommandBar 输入框中输入问题并按回车——回答开始流式传入 AnswerArea。
  2. 或"根据所听内容"提问。输入框时按回车——Whisperer 会取最新的转录片段(对方的问题)并给出回答。当问题刚被大声说出时非常方便。
  3. 或附上截图。 截取一张截图(使用 captureScreenshot 快捷键)——画面进入视觉模式,模型将分析图片。
  4. 阅读流式回答。 文字在生成过程中逐渐出现。若存在推理过程,可展开查看。
  5. 翻页。 较长的回答和一系列请求会分页显示——通过 AnswerArea 中的 1/N 分页控件切换。

回答模式

  • 普通回答(角色 responses)——综合上下文和知识库对问题给出文字回答。
  • 编程(角色 coding)——代码生成与解释,针对编程优化的模型。
  • 视觉/多截图(角色 vision)——分析单张图片或多张累积帧(截图数组发送至视觉端点)。适用于单屏无法容纳的长任务。
  • 系统设计(角色 system_design)——带 Mermaid 图表的结构化回答(组件、数据流、架构图)。

提示词的组装方式(简述)

系统提示词按优先级从上到下组装:

  1. 角色提示词 — 您在 Prompt Studio 中设置的个人模板。
  2. 用户上下文 — 您填写的关于自己和角色的信息。
  3. RAG 块 — 从知识库中动态为每次请求选取的相关片段。

不同的模型角色处理不同的任务:responses(对话)、coding(代码)、vision(图片)、system_design(图表)、generation(思维导图)、transcription(Whisper)、embedding(RAG 向量化)。

模型分级访问

Free 套餐提供基础模型;付费套餐提供更广泛的选择。前沿模型(顶级模型:Claude Opus、旗舰 GPT 等)仅在 Max 套餐中提供。更多信息请参见套餐及包含内容

截图

📸 [截图:AnswerArea 中的流式回答及 1/N 分页]

📸 [截图:通过空回车发起"根据所听内容"的请求]

📸 [截图:带 Mermaid 图表的系统设计回答]

📸 [截图:附有截图的视觉模式]

常见问题

  • 回车没有发送任何内容。 若输入框为空,Whisperer 会从转录文本获取问题——请确保对方的声音被听到(需要"屏幕录制"权限),或直接输入文字问题。
  • 前沿模型不可用。 顶级模型仅在 Max 套餐中启用——在 Free/Start/Pro 套餐中,将自动选择最近可用的模型。
  • 上下文"不起作用"。 用户上下文是关于您的参考信息,而非指令;实际问题需在输入框中提出。
  • 截图未被分析。 多截图和视觉功能并非所有套餐都支持——请在套餐中查看功能说明。

最佳实践

  • 提出简短、具体的问题——流式传输启动更快,回答更准确。
  • 对于屏幕上的长任务,累积多个帧后以多截图方式发送,而非逐一发送。
  • 建立您的知识库——RAG 会将您的事实融入回答并减少"幻觉"。
  • 根据您的任务(面试/销售/教学)设置个性化的角色提示词模板。
  • 对于架构问题,使用系统设计模式——您将获得现成的 Mermaid 图表,而非纯文字描述。

相关文章