文字起こしと話者識別

Whisperer は、OpenAI の多言語モデルである Whisper を使って音声をリアルタイムに文字起こしします。話者分離(ダイアライゼーション)も同時に実行され、ユーザーの発言と相手の発言が別々にラベル付けされます。これにより文字起こしが読みやすくなり、AI による応答の精度も向上します。

この記事を読むとき

この記事では、次のことを理解できます。

  • 認識言語を設定する方法;
  • なぜ一部の発言が [Me]、別の発言が [Other] とラベル付けされるのか;
  • どの言語に対応しており、どのように切り替えるのか。

文字起こしの仕組み

Whisperer は 2 つの音声ストリームを取り込みます。

ストリーム ソース ラベル
ユーザーの声 マイク [Me]
相手の声 システム音声(macOS では画面収録の権限/Windows ではシステム音声) [Other]

各音声チャンク(約 0.8 秒)は話者ラベルとともにサーバーへ送信され、それぞれ独立して認識されます。結果は LiveTranscriptStrip(オーバーレイ下部をスクロールするティッカー)に即座に表示されます。

文字起こしの言語

認識言語はセッション単位で設定します。

  1. クライアント(歯車アイコン)または Web ダッシュボードで 設定 を開きます。
  2. 文字起こしの言語 フィールドを見つけます。
  3. 標準の言語コード一覧から希望する言語を選択します(例:enruzhde)。
  4. 新しいセッションを開始すると、その言語が適用されます。

Whisper は 90 以上の言語に対応しています。会議の参加者が異なる言語を話す場合、Whisper は選択した言語の「ヒント」の範囲内で各チャンクを自動判別します。

📸 [スクリーンショット:[Me] と [Other] の発言が流れる LiveTranscriptStrip のスクロールティッカー]

ダッシュボードでの完全な文字起こし

セッション終了後、完全な文字起こしは Web ダッシュボードの 履歴 セクションで確認できます。次のことが可能です。

  • 話者でフィルタリングして読む;
  • 全文または一部をコピーする;
  • 分析やマインドマップの基礎として活用する。

📸 [スクリーンショット:ダッシュボードのセッションページ — 話者ラベル付きの文字起こしブロック]

よくあるエラー

エラー 原因 対処法
相手の声が文字起こしされない 画面収録の権限が付与されていない(macOS)、またはシステム音声が利用できない(Windows) macOS の権限 / Windows
文字起こしの言語が間違っている 誤った文字起こし言語が選択されている 設定で言語を変更してセッションを再開する
話者間でテキストが混ざる マイクが両方の音声ストリームを拾っている(エコー) ヘッドフォンを使うか、スピーカーの音量を下げる
接続が弱いとテキストが表示されない Whisper の応答が届く前に WebSocket が切断される 接続を改善する;Whisperer は自動的に再接続します

ベストプラクティス

  • ヘッドフォンを使う — 音響エコーがなくなり、話者の分離が向上します。
  • セッション前に正しい言語を選ぶ — 録音中に言語を変更すると新しいセッションが作成されます。
  • 二言語通話では 相手の言語を選択できます。Whisper はコンテキストヒントのおかげで、あなたの発言も引き続き認識します。

関連記事