实时 AI 建议

概述

AI 建议是 Whisperer 在通话过程中根据实时转录文本、您的问题和知识库即时生成的回答。回答以流式方式传入悬浮窗的 AnswerArea：文字在生成过程中逐渐显示，支持 Markdown、推理展开以及分页（1/N）。建议支持多种模式——从普通回答到截图分析，再到带图表的系统设计。

所有请求均通过我们的 AI 服务商处理，模型涵盖 Claude、GPT、DeepSeek、Qwen、Gemini、Grok 和 Llama 等系列。可用模型取决于您的套餐（分级访问）：顶级前沿模型仅在 Max 套餐中提供。

适用场景

面试： 快速组织行为面试问题的回答，或草拟系统设计方案。
销售与谈判： 找到论点、回应异议、核实事实。
技术面试/结对编程： 在编程模式下获取代码。
理解屏幕内容： 在视觉模式下发送白板、图表或代码的截图。

操作步骤

以文字提问。 在 CommandBar 输入框中输入问题并按回车——回答开始流式传入 AnswerArea。
或"根据所听内容"提问。 在空输入框时按回车——Whisperer 会取最新的转录片段（对方的问题）并给出回答。当问题刚被大声说出时非常方便。
或附上截图。 截取一张截图（使用 captureScreenshot 快捷键）——画面进入视觉模式，模型将分析图片。
阅读流式回答。 文字在生成过程中逐渐出现。若存在推理过程，可展开查看。
翻页。 较长的回答和一系列请求会分页显示——通过 AnswerArea 中的 1/N 分页控件切换。

回答模式

普通回答（角色 responses）——综合上下文和知识库对问题给出文字回答。
编程（角色 coding）——代码生成与解释，针对编程优化的模型。
视觉/多截图（角色 vision）——分析单张图片或多张累积帧（截图数组发送至视觉端点）。适用于单屏无法容纳的长任务。
系统设计（角色 system_design）——带 Mermaid 图表的结构化回答（组件、数据流、架构图）。

提示词的组装方式（简述）

系统提示词按优先级从上到下组装：

角色提示词 — 您在 Prompt Studio 中设置的个人模板。
用户上下文 — 您填写的关于自己和角色的信息。
RAG 块 — 从知识库中动态为每次请求选取的相关片段。

不同的模型角色处理不同的任务：responses（对话）、coding（代码）、vision（图片）、system_design（图表）、generation（思维导图）、transcription（Whisper）、embedding（RAG 向量化）。

模型分级访问

Free 套餐提供基础模型；付费套餐提供更广泛的选择。前沿模型（顶级模型：Claude Opus、旗舰 GPT 等）仅在 Max 套餐中提供。更多信息请参见套餐及包含内容。

截图

📸 [截图：AnswerArea 中的流式回答及 1/N 分页]

📸 [截图：通过空回车发起"根据所听内容"的请求]

📸 [截图：带 Mermaid 图表的系统设计回答]

📸 [截图：附有截图的视觉模式]

常见问题

回车没有发送任何内容。 若输入框为空，Whisperer 会从转录文本获取问题——请确保对方的声音被听到（需要"屏幕录制"权限），或直接输入文字问题。
前沿模型不可用。 顶级模型仅在 Max 套餐中启用——在 Free/Start/Pro 套餐中，将自动选择最近可用的模型。
上下文"不起作用"。 用户上下文是关于您的参考信息，而非指令；实际问题需在输入框中提出。
截图未被分析。 多截图和视觉功能并非所有套餐都支持——请在套餐中查看功能说明。

最佳实践

提出简短、具体的问题——流式传输启动更快，回答更准确。
对于屏幕上的长任务，累积多个帧后以多截图方式发送，而非逐一发送。
建立您的知识库——RAG 会将您的事实融入回答并减少"幻觉"。
根据您的任务（面试/销售/教学）设置个性化的角色提示词模板。
对于架构问题，使用系统设计模式——您将获得现成的 Mermaid 图表，而非纯文字描述。

相关文章