ライブ文字起こし

概要

ライブ文字起こしは、通話のリアルタイムなトランスクリプトです。Whisperer は 2 つの独立したストリーム — あなたのマイク(あなたの声)とシステム音声(相手の声)— にわたって音声を聞き取り、発話を認識して即座に話者ごとにタグ付けします:[Me][Other]。テキストはオーバーレイ(LiveTranscriptStrip)内をスクロールし、AI 提案のコンテキストとして機能します。

認識は Whisper モデルを通じてリアルタイムで実行されます。文字起こしはストリーミングのみ(リアルタイム)です。音声は録音されるそばから短いチャンクに分けて認識に送られます。完成した音声ファイルをアップロードしてバッチ文字起こしする機能はありません — Whisperer は録音の後処理ではなく、ライブ通話のために作られています。

利用シーン

  • あらゆるビデオ通話。 Whisperer は Zoom、Google Meet、Microsoft Teams、Telegram、Discord、その他あらゆるサービスの上にオーバーレイとして動作します — 個別の連携は不要です。
  • 面接(行動面接やシステム設計面接)。質問の言い回しを聞き逃すわけにはいかない場面で。
  • 講義、個別指導、営業 — 双方の発言を正確に文字起こしする必要があるとき。
  • 多言語通話 — Whisper は数十の言語を理解します。認識言語はセッションごとに設定します。

ステップバイステップ

  1. 権限を付与する。 macOS では、2 つのストリームに 2 つの許可が必要です:「マイク」(あなたの声)と「画面収録」(相手のシステム音声)。「画面収録」がないと相手の声は聞き取れません。macOS の権限を参照してください。Windows では、システム音声は追加の権限なしでキャプチャされます — 必要なのはマイクへのアクセスだけです。Windows の権限を参照してください。
  2. 文字起こしの言語を選ぶ。 セッション設定で話される言語を設定します。デフォルトは ru です。Whisper は多言語対応なので、英語の面接では en を、言語が混在する通話では通話の主要言語を設定します。
  3. オーバーレイを開いて再生を押す。 CommandBar に音量インジケーター(波形)が表示されます — 音声が入力されていることを示します。
  4. 話して聞く。 あなたの発言は [Me]、システム音声からの発言は [Other] とタグ付けされます。トランスクリプトは LiveTranscriptStrip 内でリアルタイムに更新されます。
  5. (任意)翻訳を有効にする。 オーバーレイ設定で翻訳が有効になっていると、トランスクリプトの下に翻訳行(TranslationStrip)が表示されます。
  6. セッションを終了する。 完了すると、トランスクリプトは履歴に保存されます(no-logs モードを除く — 上限とクォータを参照)。

なぜ「画面収録」権限が必要なのか(macOS)

macOS では、他のアプリからの音声(Zoom/Meet での相手の声)は画面収録の仕組みを通じてキャプチャされます — 画面キャプチャと同じシステム機能です。そのため Whisperer が「画面収録」権限を要求するのは、あなたの画面を見るためではなく、技術的にシステム音声ストリームを取得するため(およびビジョン提案用にスクリーンショットを撮るため)です。この許可がないと、録音されるのはマイクのみ — あなたの声は聞こえても、相手の声は聞こえません。

Windows ではより簡単です:相手のシステム音声は追加の権限なしでキャプチャされます — マイクへのアクセスで十分です。詳細は Windows の権限にあります。

スクリーンショット

📸 [スクリーンショット:スクロールするトランスクリプトと [Me]/[Other] のタグ付けが表示されたオーバーレイ]

📸 [スクリーンショット:セッション設定で文字起こし言語を選択する画面]

📸 [スクリーンショット:CommandBar 内の音量インジケーター(波形)]

よくある間違い

  • 相手の声が聞こえず、トランスクリプトに [Me] しか表示されない。 「画面収録」権限が付与されていません。システム設定 → プライバシーとセキュリティ → 画面収録 を開き、Whisperer を有効にして、クライアントを再起動してください。
  • トランスクリプトの言語が違う/認識エラーが多い。 文字起こし言語の設定が正しくありません。開始する前に、セッション言語を実際の会話の言語に変更してください。
  • 音量インジケーターが表示されない。 入力デバイスが選択されていないか、マイクへのアクセスが許可されていません — プライバシー設定で「マイク」を確認してください。
  • 録音のアップロードを待っている。 完成したファイルのバッチ文字起こしはありません — 文字起こしはセッション中のライブでのみ機能します。

ベストプラクティス

  • 重要なミーティングの前に、同僚とテスト通話を行い、相手がトランスクリプトに [Other] として表示されることを確認しましょう。
  • 騒がしい部屋ではオーバーレイ設定でノイズ抑制を有効にしましょう — Whisper の精度が向上します。
  • 言語が混在する通話では、最も多く話される言語を選びましょう。Whisper は切り替えに対応しますが、ベース言語を明示的に設定する方が良い結果になります。
  • 内容が機密性の高いものなら、no-logs モードを使いましょう — トランスクリプトはデータベースに保存されません(ただし時間(分)は依然として消費されます)。
  • 明瞭な発音を心がけ、相手と発言が重ならないようにしましょう — 発言が分かれている方が話者ごとのタグ付けがより正確になります。

関連記事