文字起こしと話者識別

Whisperer は、OpenAI の多言語モデルである Whisper を使って音声をリアルタイムに文字起こしします。話者分離（ダイアライゼーション）も同時に実行され、ユーザーの発言と相手の発言が別々にラベル付けされます。これにより文字起こしが読みやすくなり、AI による応答の精度も向上します。

この記事を読むとき

この記事では、次のことを理解できます。

認識言語を設定する方法；
なぜ一部の発言が [Me]、別の発言が [Other] とラベル付けされるのか；
どの言語に対応しており、どのように切り替えるのか。

文字起こしの仕組み

Whisperer は 2 つの音声ストリームを取り込みます。

ストリーム	ソース	ラベル
ユーザーの声	マイク	[Me]
相手の声	システム音声（macOS では画面収録の権限／Windows ではシステム音声）	[Other]

各音声チャンク（約 0.8 秒）は話者ラベルとともにサーバーへ送信され、それぞれ独立して認識されます。結果は LiveTranscriptStrip（オーバーレイ下部をスクロールするティッカー）に即座に表示されます。

文字起こしの言語

認識言語はセッション単位で設定します。

クライアント（歯車アイコン）または Web ダッシュボードで設定を開きます。
文字起こしの言語 フィールドを見つけます。
標準の言語コード一覧から希望する言語を選択します（例：en、ru、zh、de）。
新しいセッションを開始すると、その言語が適用されます。

Whisper は 90 以上の言語に対応しています。会議の参加者が異なる言語を話す場合、Whisper は選択した言語の「ヒント」の範囲内で各チャンクを自動判別します。

📸 [スクリーンショット：[Me] と [Other] の発言が流れる LiveTranscriptStrip のスクロールティッカー]

ダッシュボードでの完全な文字起こし

セッション終了後、完全な文字起こしは Web ダッシュボードの履歴セクションで確認できます。次のことが可能です。

話者でフィルタリングして読む；
全文または一部をコピーする；
分析やマインドマップの基礎として活用する。

📸 [スクリーンショット：ダッシュボードのセッションページ — 話者ラベル付きの文字起こしブロック]

よくあるエラー

エラー	原因	対処法
相手の声が文字起こしされない	画面収録の権限が付与されていない（macOS）、またはシステム音声が利用できない（Windows）	macOS の権限 / Windows
文字起こしの言語が間違っている	誤った文字起こし言語が選択されている	設定で言語を変更してセッションを再開する
話者間でテキストが混ざる	マイクが両方の音声ストリームを拾っている（エコー）	ヘッドフォンを使うか、スピーカーの音量を下げる
接続が弱いとテキストが表示されない	Whisper の応答が届く前に WebSocket が切断される	接続を改善する；Whisperer は自動的に再接続します

ベストプラクティス

ヘッドフォンを使う — 音響エコーがなくなり、話者の分離が向上します。
セッション前に正しい言語を選ぶ — 録音中に言語を変更すると新しいセッションが作成されます。
二言語通話では 相手の言語を選択できます。Whisper はコンテキストヒントのおかげで、あなたの発言も引き続き認識します。