Live-транскрипция
Короткое описание
Live-транскрипция — это стенограмма созвона в реальном времени. Whisperer слушает аудио в двух независимых потоках: микрофон (ваш голос) и системный звук (голос собеседника), — распознаёт речь и тут же размечает реплики по спикерам: [Я] и [Собеседник]. Текст бежит строкой в оверлее (LiveTranscriptStrip) и служит контекстом для AI-подсказок.
Распознавание идёт через модель Whisper в режиме реального времени. Транскрипция только потоковая (real-time): аудио уходит на распознавание короткими чанками по мере записи. Загрузки готового аудиофайла для пакетной (batch) расшифровки в продукте нет — Whisperer рассчитан на живой созвон, а не на постобработку записей.
Когда использовать
- Любой видеозвонок. Whisperer работает оверлеем поверх Zoom, Google Meet, Microsoft Teams, Telegram, Discord и любого другого сервиса — отдельной интеграции не требуется.
- Собеседования (поведенческие и System Design), где важно не упустить формулировку вопроса.
- Лекции, занятия с репетитором, продажи — когда нужна точная стенограмма реплик обеих сторон.
- Мультиязычные созвоны — Whisper понимает десятки языков; язык распознавания задаётся для каждой сессии отдельно.
Пошаговая инструкция
- Выдайте разрешения. На macOS для двух потоков нужны два доступа: «Микрофон» (ваш голос) и «Запись экрана» (системный звук собеседника); без «Записи экрана» собеседник не будет слышен. См. Разрешения macOS. На Windows системный звук берётся без дополнительного разрешения — нужен только доступ к микрофону; см. Разрешения на Windows.
- Выберите язык транскрипции. В настройках сессии укажите язык речи. По умолчанию —
ru. Whisper мультиязычный, поэтому для англоязычного собеседования поставьтеen, для смешанного созвона — основной язык беседы. - Откройте оверлей и нажмите play. В CommandBar появится индикатор громкости (waveform) — он подтверждает, что звук поступает.
- Говорите и слушайте. Ваши реплики помечаются
[Я], реплики из системного звука —[Собеседник]. Стенограмма обновляется в строке LiveTranscriptStrip в реальном времени. - (Опционально) Включите перевод. Если в настройках оверлея активирован перевод, под стенограммой появится строка перевода (TranslationStrip).
- Завершите сессию. По окончании транскрипт сохраняется в историю (кроме режима no-logs — см. Лимиты и квоты).
Зачем разрешение «Запись экрана» (macOS)
В macOS звук других приложений (голос собеседника в Zoom/Meet) перехватывается через механизм записи экрана. Поэтому Whisperer запрашивает разрешение «Запись экрана» не для слежки за экраном, а чтобы технически получить системный аудиопоток (и делать скриншоты для vision-подсказок). Без этого доступа записывается только микрофон — вы слышны, собеседник нет.
На Windows всё проще: системный звук собеседника захватывается без дополнительных разрешений — достаточно доступа к микрофону. Подробности — в статье Разрешения на Windows.
Скриншоты
📸 [Скриншот: оверлей с бегущей стенограммой и разметкой [Я]/[Собеседник]]
📸 [Скриншот: выбор языка транскрипции в настройках сессии]
📸 [Скриншот: индикатор громкости (waveform) в CommandBar]
Частые ошибки
- Собеседника не слышно, в стенограмме только
[Я]. Не выдано разрешение «Запись экрана». Откройте System Settings → Privacy & Security → Screen Recording и включите Whisperer, затем перезапустите клиент. - Стенограмма на неверном языке / много ошибок распознавания. Язык транскрипции выставлен неправильно. Смените язык сессии на фактический язык беседы перед стартом.
- Нет индикатора громкости. Не выбрано устройство ввода или не выдан доступ к микрофону — проверьте «Микрофон» в настройках конфиденциальности.
- Ожидание загрузки записи. Пакетной расшифровки готового файла нет — транскрипция работает только в прямом эфире во время сессии.
Лучшие практики
- Перед важной встречей проведите тестовый созвон с коллегой и убедитесь, что собеседник появляется в стенограмме как
[Собеседник]. - Включите шумоподавление в настройках оверлея в шумном помещении — это повышает точность Whisper.
- Для смешанных по языку созвонов выбирайте язык, на котором говорят большинство времени; Whisper справляется с переключениями, но базовый язык лучше задать явно.
- Если содержимое чувствительное, используйте режим no-logs — транскрипт не сохранится в базе (минуты при этом всё равно расходуются).
- Держите чёткую дикцию и не перебивайте — раздельные реплики точнее размечаются по спикерам.