Live-транскрипция

Короткое описание

Live-транскрипция — это стенограмма созвона в реальном времени. Whisperer слушает аудио в двух независимых потоках: микрофон (ваш голос) и системный звук (голос собеседника), — распознаёт речь и тут же размечает реплики по спикерам: [Я] и [Собеседник]. Текст бежит строкой в оверлее (LiveTranscriptStrip) и служит контекстом для AI-подсказок.

Распознавание идёт через модель Whisper в режиме реального времени. Транскрипция только потоковая (real-time): аудио уходит на распознавание короткими чанками по мере записи. Загрузки готового аудиофайла для пакетной (batch) расшифровки в продукте нет — Whisperer рассчитан на живой созвон, а не на постобработку записей.

Когда использовать

Любой видеозвонок. Whisperer работает оверлеем поверх Zoom, Google Meet, Microsoft Teams, Telegram, Discord и любого другого сервиса — отдельной интеграции не требуется.
Собеседования (поведенческие и System Design), где важно не упустить формулировку вопроса.
Лекции, занятия с репетитором, продажи — когда нужна точная стенограмма реплик обеих сторон.
Мультиязычные созвоны — Whisper понимает десятки языков; язык распознавания задаётся для каждой сессии отдельно.

Пошаговая инструкция

Выдайте разрешения. На macOS для двух потоков нужны два доступа: «Микрофон» (ваш голос) и «Запись экрана» (системный звук собеседника); без «Записи экрана» собеседник не будет слышен. См. Разрешения macOS. На Windows системный звук берётся без дополнительного разрешения — нужен только доступ к микрофону; см. Разрешения на Windows.
Выберите язык транскрипции. В настройках сессии укажите язык речи. По умолчанию — ru. Whisper мультиязычный, поэтому для англоязычного собеседования поставьте en, для смешанного созвона — основной язык беседы.
Откройте оверлей и нажмите play. В CommandBar появится индикатор громкости (waveform) — он подтверждает, что звук поступает.
Говорите и слушайте. Ваши реплики помечаются [Я], реплики из системного звука — [Собеседник]. Стенограмма обновляется в строке LiveTranscriptStrip в реальном времени.
(Опционально) Включите перевод. Если в настройках оверлея активирован перевод, под стенограммой появится строка перевода (TranslationStrip).
Завершите сессию. По окончании транскрипт сохраняется в историю (кроме режима no-logs — см. Лимиты и квоты).

Зачем разрешение «Запись экрана» (macOS)

В macOS звук других приложений (голос собеседника в Zoom/Meet) перехватывается через механизм записи экрана. Поэтому Whisperer запрашивает разрешение «Запись экрана» не для слежки за экраном, а чтобы технически получить системный аудиопоток (и делать скриншоты для vision-подсказок). Без этого доступа записывается только микрофон — вы слышны, собеседник нет.

На Windows всё проще: системный звук собеседника захватывается без дополнительных разрешений — достаточно доступа к микрофону. Подробности — в статье Разрешения на Windows.

Скриншоты

📸 [Скриншот: оверлей с бегущей стенограммой и разметкой [Я]/[Собеседник]]

📸 [Скриншот: выбор языка транскрипции в настройках сессии]

📸 [Скриншот: индикатор громкости (waveform) в CommandBar]

Частые ошибки

Собеседника не слышно, в стенограмме только [Я]. Не выдано разрешение «Запись экрана». Откройте System Settings → Privacy & Security → Screen Recording и включите Whisperer, затем перезапустите клиент.
Стенограмма на неверном языке / много ошибок распознавания. Язык транскрипции выставлен неправильно. Смените язык сессии на фактический язык беседы перед стартом.
Нет индикатора громкости. Не выбрано устройство ввода или не выдан доступ к микрофону — проверьте «Микрофон» в настройках конфиденциальности.
Ожидание загрузки записи. Пакетной расшифровки готового файла нет — транскрипция работает только в прямом эфире во время сессии.

Лучшие практики

Перед важной встречей проведите тестовый созвон с коллегой и убедитесь, что собеседник появляется в стенограмме как [Собеседник].
Включите шумоподавление в настройках оверлея в шумном помещении — это повышает точность Whisper.
Для смешанных по языку созвонов выбирайте язык, на котором говорят большинство времени; Whisper справляется с переключениями, но базовый язык лучше задать явно.
Если содержимое чувствительное, используйте режим no-logs — транскрипт не сохранится в базе (минуты при этом всё равно расходуются).
Держите чёткую дикцию и не перебивайте — раздельные реплики точнее размечаются по спикерам.