Транскрипция и спикеры

Whisperer транскрибирует речь в реальном времени с помощью Whisper — мультиязычной модели от OpenAI. Одновременно ведётся разметка спикеров: слова пользователя и собеседника маркируются по-разному, что упрощает чтение стенограммы и улучшает точность AI-ответов.

Когда использовать

Читайте эту статью, чтобы понять:

  • как настроить язык распознавания;
  • почему одни реплики помечены [Я], а другие [Собеседник];
  • какие языки поддерживаются и как переключиться.

Как работает транскрипция

Whisperer захватывает два аудиопотока:

Поток Источник Метка
Голос пользователя Микрофон [Я]
Голос собеседника Системный звук (разрешение «Запись экрана» на macOS / системный звук на Windows) [Собеседник]

Каждый фрагмент аудио (~0,8 с) передаётся на сервер с меткой говорящего и распознаётся независимо. Результат моментально появляется в LiveTranscriptStrip — бегущей строке внизу оверлея.

Язык транскрипции

Язык распознавания задаётся на уровне сессии:

  1. Откройте Настройки в клиенте (иконка шестерёнки) или веб-кабинете.
  2. Найдите поле Язык транскрипции.
  3. Выберите нужный язык из стандартного списка кодов языков (например, ru, en, zh, de).
  4. Запустите новую сессию — язык применится к ней.

Whisper поддерживает более 90 языков. Если участники встречи говорят на разных языках, Whisper автоопределяет каждый чанк в рамках выбранного языкового «хинта».

📸 [Скриншот: бегущая строка LiveTranscriptStrip с репликами [Я] и [Собеседник]]

Полный транскрипт в кабинете

После завершения сессии полный транскрипт доступен в разделе История веб-кабинета. Его можно:

  • читать с фильтрацией по спикеру;
  • копировать целиком или фрагментами;
  • использовать как основу для аналитики и mind-map.

📸 [Скриншот: страница сессии в кабинете — блоки транскрипта с метками спикеров]

Частые ошибки

Ошибка Причина Решение
Голос собеседника не транскрибируется Нет разрешения «Запись экрана» (macOS) или системный звук недоступен (Windows) Разрешения macOS / Windows
Неправильный язык в стенограмме Выбран не тот язык транскрипции Смените язык в настройках и перезапустите сессию
Текст путается между спикерами Микрофон захватывает оба аудиопотока (эхо) Используйте наушники или снизьте громкость динамиков
Нет текста при слабой сети WebSocket обрывается до получения ответа Whisper Улучшите соединение; Whisperer автоматически переподключается

Лучшие практики

  • Используйте наушники — это исключает акустическое эхо и улучшает разделение спикеров.
  • Выбирайте верный язык до сессии — смена языка посреди записи создаёт новую сессию.
  • На двуязычных созвонах можно выбрать язык собеседника: Whisper всё равно распознает вашу речь благодаря хинту контекста.

Связанные статьи