Transcripción en vivo

Descripción general

La transcripción en vivo es un registro en tiempo real de tu llamada. Whisperer escucha el audio a través de dos flujos independientes — tu micrófono (tu voz) y el audio del sistema (la voz de la otra persona) — reconoce el habla y etiqueta inmediatamente los enunciados por hablante: [Me] y [Other]. El texto se desplaza en el overlay (LiveTranscriptStrip) y sirve de contexto para las sugerencias de AI.

El reconocimiento se ejecuta a través del modelo Whisper en tiempo real. La transcripción es solo en streaming (tiempo real): el audio se envía para reconocimiento en fragmentos cortos a medida que se graba. No hay carga de un archivo de audio terminado para transcripción por lotes — Whisperer está diseñado para llamadas en vivo, no para el post-procesamiento de grabaciones.

Cuándo usar esto

Cualquier videollamada. Whisperer funciona como overlay sobre Zoom, Google Meet, Microsoft Teams, Telegram, Discord y cualquier otro servicio — sin integración separada requerida.
Entrevistas (de comportamiento y System Design), donde no puedes permitirte perder cómo se formula una pregunta.
Clases, tutorías, ventas — cuando necesitas una transcripción precisa de los comentarios de ambas partes.
Llamadas multilingües — Whisper entiende docenas de idiomas; el idioma de reconocimiento se establece por sesión.

Paso a paso

Concede los permisos. En macOS, los dos flujos requieren dos concesiones: "Micrófono" (tu voz) y "Grabación de pantalla" (el audio del sistema de la otra persona); sin "Grabación de pantalla" no se escuchará a la otra persona. Consulta Permisos de macOS. En Windows, el audio del sistema se captura sin ningún permiso adicional — solo necesitas acceso al micrófono; consulta Permisos de Windows.
Elige el idioma de transcripción. En la configuración de la sesión, establece el idioma hablado. El valor predeterminado es ru. Whisper es multilingüe, así que para una entrevista en inglés establece en, y para una llamada mixta usa el idioma principal de la llamada.
Abre el overlay y pulsa reproducir. Aparece un indicador de volumen (forma de onda) en la CommandBar — confirma que el audio está entrando.
Habla y escucha. Tus comentarios se etiquetan [Me], los comentarios del audio del sistema se etiquetan [Other]. La transcripción se actualiza en el LiveTranscriptStrip en tiempo real.
(Opcional) Habilita la traducción. Si la traducción está habilitada en la configuración del overlay, aparece una línea de traducción (TranslationStrip) debajo de la transcripción.
Termina la sesión. Cuando hayas terminado, la transcripción se guarda en el historial (excepto en el modo sin registros — consulta Límites y cuotas).

Por qué se necesita el permiso "Grabación de pantalla" (macOS)

En macOS, el audio de otras aplicaciones (la voz de la otra persona en Zoom/Meet) se captura a través del mecanismo de grabación de pantalla — la misma función del sistema que la captura de pantalla. Por eso Whisperer solicita el permiso "Grabación de pantalla" no para ver tu pantalla, sino para obtener técnicamente el flujo de audio del sistema (y para tomar capturas de pantalla para sugerencias de visión). Sin esta concesión, solo se graba el micrófono — te escuchas a ti mismo, pero no a la otra persona.

En Windows es más sencillo: el audio del sistema de la otra persona se captura sin ningún permiso adicional — el acceso al micrófono es suficiente. Los detalles están en Permisos de Windows.

Capturas de pantalla

📸 [Captura de pantalla: overlay con una transcripción desplazable y etiquetado [Me]/[Other]]

📸 [Captura de pantalla: selección del idioma de transcripción en la configuración de la sesión]

📸 [Captura de pantalla: indicador de volumen (forma de onda) en la CommandBar]

Errores comunes

No se escucha a la otra persona, la transcripción solo muestra [Me]. El permiso "Grabación de pantalla" no ha sido concedido. Abre Configuración del sistema → Privacidad y seguridad → Grabación de pantalla, habilita Whisperer y luego reinicia el cliente.
La transcripción está en el idioma incorrecto / muchos errores de reconocimiento. El idioma de transcripción está configurado incorrectamente. Cambia el idioma de la sesión al idioma real de la conversación antes de comenzar.
Sin indicador de volumen. No hay ningún dispositivo de entrada seleccionado o el acceso al micrófono no está concedido — comprueba "Micrófono" en tu configuración de privacidad.
Esperando cargar una grabación. No hay transcripción por lotes de un archivo terminado — la transcripción solo funciona en vivo durante una sesión.

Buenas prácticas

Antes de una reunión importante, realiza una llamada de prueba con un colega y confirma que la otra persona aparece en la transcripción como [Other].
Habilita la supresión de ruido en la configuración del overlay en un entorno ruidoso — mejora la precisión de Whisper.
Para llamadas con mezcla de idiomas, elige el idioma que se habla la mayor parte del tiempo; Whisper maneja los cambios, pero es mejor establecer el idioma base explícitamente.
Si el contenido es sensible, usa el modo sin registros — la transcripción no se guardará en la base de datos (los minutos se consumen igualmente, sin embargo).
Mantén una dicción clara y evita hablar todos al mismo tiempo — los enunciados separados se etiquetan por hablante con mayor precisión.