Транскрипция и спикеры

Whisperer транскрибирует речь в реальном времени с помощью Whisper — мультиязычной модели от OpenAI. Одновременно ведётся разметка спикеров: слова пользователя и собеседника маркируются по-разному, что упрощает чтение стенограммы и улучшает точность AI-ответов.

Когда использовать

Читайте эту статью, чтобы понять:

как настроить язык распознавания;
почему одни реплики помечены [Я], а другие [Собеседник];
какие языки поддерживаются и как переключиться.

Как работает транскрипция

Whisperer захватывает два аудиопотока:

Поток	Источник	Метка
Голос пользователя	Микрофон	[Я]
Голос собеседника	Системный звук (разрешение «Запись экрана» на macOS / системный звук на Windows)	[Собеседник]

Каждый фрагмент аудио (~0,8 с) передаётся на сервер с меткой говорящего и распознаётся независимо. Результат моментально появляется в LiveTranscriptStrip — бегущей строке внизу оверлея.

Язык транскрипции

Язык распознавания задаётся на уровне сессии:

Откройте Настройки в клиенте (иконка шестерёнки) или веб-кабинете.
Найдите поле Язык транскрипции.
Выберите нужный язык из стандартного списка кодов языков (например, ru, en, zh, de).
Запустите новую сессию — язык применится к ней.

Whisper поддерживает более 90 языков. Если участники встречи говорят на разных языках, Whisper автоопределяет каждый чанк в рамках выбранного языкового «хинта».

📸 [Скриншот: бегущая строка LiveTranscriptStrip с репликами [Я] и [Собеседник]]

Полный транскрипт в кабинете

После завершения сессии полный транскрипт доступен в разделе История веб-кабинета. Его можно:

читать с фильтрацией по спикеру;
копировать целиком или фрагментами;
использовать как основу для аналитики и mind-map.

📸 [Скриншот: страница сессии в кабинете — блоки транскрипта с метками спикеров]

Частые ошибки

Ошибка	Причина	Решение
Голос собеседника не транскрибируется	Нет разрешения «Запись экрана» (macOS) или системный звук недоступен (Windows)	Разрешения macOS / Windows
Неправильный язык в стенограмме	Выбран не тот язык транскрипции	Смените язык в настройках и перезапустите сессию
Текст путается между спикерами	Микрофон захватывает оба аудиопотока (эхо)	Используйте наушники или снизьте громкость динамиков
Нет текста при слабой сети	WebSocket обрывается до получения ответа Whisper	Улучшите соединение; Whisperer автоматически переподключается

Лучшие практики

Используйте наушники — это исключает акустическое эхо и улучшает разделение спикеров.
Выбирайте верный язык до сессии — смена языка посреди записи создаёт новую сессию.
На двуязычных созвонах можно выбрать язык собеседника: Whisper всё равно распознает вашу речь благодаря хинту контекста.