Транскрипция и спикеры
Whisperer транскрибирует речь в реальном времени с помощью Whisper — мультиязычной модели от OpenAI. Одновременно ведётся разметка спикеров: слова пользователя и собеседника маркируются по-разному, что упрощает чтение стенограммы и улучшает точность AI-ответов.
Когда использовать
Читайте эту статью, чтобы понять:
- как настроить язык распознавания;
- почему одни реплики помечены [Я], а другие [Собеседник];
- какие языки поддерживаются и как переключиться.
Как работает транскрипция
Whisperer захватывает два аудиопотока:
| Поток | Источник | Метка |
|---|---|---|
| Голос пользователя | Микрофон | [Я] |
| Голос собеседника | Системный звук (разрешение «Запись экрана» на macOS / системный звук на Windows) | [Собеседник] |
Каждый фрагмент аудио (~0,8 с) передаётся на сервер с меткой говорящего и распознаётся независимо. Результат моментально появляется в LiveTranscriptStrip — бегущей строке внизу оверлея.
Язык транскрипции
Язык распознавания задаётся на уровне сессии:
- Откройте Настройки в клиенте (иконка шестерёнки) или веб-кабинете.
- Найдите поле Язык транскрипции.
- Выберите нужный язык из стандартного списка кодов языков (например,
ru,en,zh,de). - Запустите новую сессию — язык применится к ней.
Whisper поддерживает более 90 языков. Если участники встречи говорят на разных языках, Whisper автоопределяет каждый чанк в рамках выбранного языкового «хинта».
📸 [Скриншот: бегущая строка LiveTranscriptStrip с репликами [Я] и [Собеседник]]
Полный транскрипт в кабинете
После завершения сессии полный транскрипт доступен в разделе История веб-кабинета. Его можно:
- читать с фильтрацией по спикеру;
- копировать целиком или фрагментами;
- использовать как основу для аналитики и mind-map.
📸 [Скриншот: страница сессии в кабинете — блоки транскрипта с метками спикеров]
Частые ошибки
| Ошибка | Причина | Решение |
|---|---|---|
| Голос собеседника не транскрибируется | Нет разрешения «Запись экрана» (macOS) или системный звук недоступен (Windows) | Разрешения macOS / Windows |
| Неправильный язык в стенограмме | Выбран не тот язык транскрипции | Смените язык в настройках и перезапустите сессию |
| Текст путается между спикерами | Микрофон захватывает оба аудиопотока (эхо) | Используйте наушники или снизьте громкость динамиков |
| Нет текста при слабой сети | WebSocket обрывается до получения ответа Whisper | Улучшите соединение; Whisperer автоматически переподключается |
Лучшие практики
- Используйте наушники — это исключает акустическое эхо и улучшает разделение спикеров.
- Выбирайте верный язык до сессии — смена языка посреди записи создаёт новую сессию.
- На двуязычных созвонах можно выбрать язык собеседника: Whisper всё равно распознает вашу речь благодаря хинту контекста.