初めてのセッション: ステップバイステップ
概要
セッションとは、通話の一回のリスニング実行です。Whisperer が音声を聴き取り、文字起こしを保持し、質問に回答します。このページでは、オーバーレイで最初の会議を開始する方法、ライブ文字起こしの見方、3 通りの質問方法、そして後から履歴を確認する場所を解説します。
Whisperer は 2 つの音声ソースをリスニングします。マイク(あなたの声)とシステムオーディオ(相手の声)です。macOS では、システムオーディオは「画面収録」権限を通じてキャプチャされます。この権限がないと相手の声が聞こえません(macOS の権限設定をご覧ください)。Windows では、システムオーディオは追加の権限なしにキャプチャされ、マイクのアクセスのみ必要です(Windows の権限設定をご覧ください)。
活用シーン
文字起こし、提案、または翻訳が必要な通話の開始時にセッションを始めます。初回起動前に、デバイスがアカウントにペアリングされ、すべての権限が付与されていることを確認してください(クイックスタートをご覧ください)。
ステップバイステップ
- アプリを開く。 画面上にオーバーレイパネル(GhostPanel)とコマンドバー(CommandBar)が表示されます。
- 再生ボタンを押す。 Whisperer が録音を開始します。音量インジケーター(波形)が音声の入力を示します。
- 文字起こしを確認する。 ライブストリップ(LiveTranscriptStrip)に、話者ラベル付きの発言が表示されます。あなたの声には
[自分]、システムオーディオには[相手]のラベルが付きます。 - 質問する — 3 通りの方法のいずれかで:
- テキスト入力 — 入力フィールドに質問を入力して送信する。
- 聞こえた内容から — 空の入力フィールドで Enter キーを押すと、Whisperer が直近に聞こえた会話から質問を組み立てる。
- スクリーンショットから — スクリーンショットを撮ると、モデルが画像を分析(ビジョン)する。
- 回答を読む。 回答は回答エリア(AnswerArea)に Markdown 形式で表示されます。
1/Nのページネーションと、モデルの推論展開機能があります。 - セッションを終了する。 一時停止/停止ボタンを押して終了すると、文字起こしと回答が履歴に保存されます(no-logs モードを除く)。
- ウェブダッシュボードで履歴を開く。 完全な文字起こし、回答、会議マインドマップ(トピック、決定事項、アクションアイテム)、検索機能を利用できます。
スクリーンショット
📸 [スクリーンショット: 再生ボタンと音量インジケーター付きのオーバーレイコマンドバー]
📸 [スクリーンショット: [自分] と [相手] ラベル付きのライブ文字起こし]
📸 [スクリーンショット: 1/N ページネーションと推論展開表示付きの回答エリア]
よくある間違い
- 相手が文字起こしに表示されない(
[相手])。 macOS の最も多い原因は「画面収録」権限が付与されていないことです。この権限がシステムオーディオをキャプチャします(macOS の権限設定をご覧ください)。Windows では権限は不要ですが、デフォルトの出力デバイスが通話が再生されているデバイスであるか確認してください(ループバックはそのデバイスのみキャプチャします)。Windows の権限設定をご覧ください。 - 「聞こえた内容から」の質問が機能しない。 このアクションは入力フィールドが空のときのみ Enter キーで作動します。フィールドにテキストがある場合は、そのテキストが送信されます。
- セッションが履歴に保存されなかった。 no-logs(エフェメラル)モードがオンになっているか確認してください。このモードでは、文字起こしと回答はセッション終了後に削除されますが、分数は引き続きカウントされます。
ベストプラクティス
- 重要な会議の前に短いテスト通話を行い、
[自分]と[相手]の両方のラベルが文字起こしに表示されることを確認しましょう。 - 手動で質問を入力せずに発言に素早く反応したい場合は、空のフィールドで Enter キーを使いましょう。
- 画面上のコード・図・エラーを分析するにはスクリーンショットを撮ると、モデルが画像を考慮して回答します。