文字起こしと話者識別
Whisperer は、OpenAI の多言語モデルである Whisper を使って音声をリアルタイムに文字起こしします。話者分離(ダイアライゼーション)も同時に実行され、ユーザーの発言と相手の発言が別々にラベル付けされます。これにより文字起こしが読みやすくなり、AI による応答の精度も向上します。
この記事を読むとき
この記事では、次のことを理解できます。
- 認識言語を設定する方法;
- なぜ一部の発言が [Me]、別の発言が [Other] とラベル付けされるのか;
- どの言語に対応しており、どのように切り替えるのか。
文字起こしの仕組み
Whisperer は 2 つの音声ストリームを取り込みます。
| ストリーム | ソース | ラベル |
|---|---|---|
| ユーザーの声 | マイク | [Me] |
| 相手の声 | システム音声(macOS では画面収録の権限/Windows ではシステム音声) | [Other] |
各音声チャンク(約 0.8 秒)は話者ラベルとともにサーバーへ送信され、それぞれ独立して認識されます。結果は LiveTranscriptStrip(オーバーレイ下部をスクロールするティッカー)に即座に表示されます。
文字起こしの言語
認識言語はセッション単位で設定します。
- クライアント(歯車アイコン)または Web ダッシュボードで 設定 を開きます。
- 文字起こしの言語 フィールドを見つけます。
- 標準の言語コード一覧から希望する言語を選択します(例:
en、ru、zh、de)。 - 新しいセッションを開始すると、その言語が適用されます。
Whisper は 90 以上の言語に対応しています。会議の参加者が異なる言語を話す場合、Whisper は選択した言語の「ヒント」の範囲内で各チャンクを自動判別します。
📸 [スクリーンショット:[Me] と [Other] の発言が流れる LiveTranscriptStrip のスクロールティッカー]
ダッシュボードでの完全な文字起こし
セッション終了後、完全な文字起こしは Web ダッシュボードの 履歴 セクションで確認できます。次のことが可能です。
- 話者でフィルタリングして読む;
- 全文または一部をコピーする;
- 分析やマインドマップの基礎として活用する。
📸 [スクリーンショット:ダッシュボードのセッションページ — 話者ラベル付きの文字起こしブロック]
よくあるエラー
| エラー | 原因 | 対処法 |
|---|---|---|
| 相手の声が文字起こしされない | 画面収録の権限が付与されていない(macOS)、またはシステム音声が利用できない(Windows) | macOS の権限 / Windows |
| 文字起こしの言語が間違っている | 誤った文字起こし言語が選択されている | 設定で言語を変更してセッションを再開する |
| 話者間でテキストが混ざる | マイクが両方の音声ストリームを拾っている(エコー) | ヘッドフォンを使うか、スピーカーの音量を下げる |
| 接続が弱いとテキストが表示されない | Whisper の応答が届く前に WebSocket が切断される | 接続を改善する;Whisperer は自動的に再接続します |
ベストプラクティス
- ヘッドフォンを使う — 音響エコーがなくなり、話者の分離が向上します。
- セッション前に正しい言語を選ぶ — 録音中に言語を変更すると新しいセッションが作成されます。
- 二言語通話では 相手の言語を選択できます。Whisper はコンテキストヒントのおかげで、あなたの発言も引き続き認識します。