Transcripción y hablantes

Whisperer transcribe el habla en tiempo real utilizando Whisper — el modelo multilingüe de OpenAI. La diarización de hablantes se ejecuta simultáneamente: las palabras del usuario y las del interlocutor se etiquetan de forma diferente, lo que facilita la lectura de la transcripción y mejora la precisión de las respuestas de IA.

Cuándo leer este artículo

Lee este artículo para entender:

cómo configurar el idioma de reconocimiento;
por qué algunas intervenciones están etiquetadas como [Me] y otras como [Other];
qué idiomas son compatibles y cómo cambiar entre ellos.

Cómo funciona la transcripción

Whisperer captura dos flujos de audio:

Flujo	Fuente	Etiqueta
Voz del usuario	Micrófono	[Me]
Voz del interlocutor	Audio del sistema (permiso de Grabación de pantalla en macOS / audio del sistema en Windows)	[Other]

Cada fragmento de audio (~0,8 s) se envía al servidor con una etiqueta de hablante y se reconoce de forma independiente. El resultado aparece al instante en el LiveTranscriptStrip — el ticker desplazable en la parte inferior del overlay.

Idioma de transcripción

El idioma de reconocimiento se configura a nivel de sesión:

Abre Configuración en el cliente (icono de engranaje) o en el panel web.
Busca el campo Idioma de transcripción.
Selecciona el idioma deseado en la lista estándar de códigos de idioma (p. ej., en, ru, zh, de).
Inicia una nueva sesión — el idioma se aplicará a ella.

Whisper admite más de 90 idiomas. Si los participantes de la reunión hablan idiomas distintos, Whisper detecta automáticamente cada fragmento dentro de la "pista" del idioma seleccionado.

📸 [Captura de pantalla: ticker desplazable del LiveTranscriptStrip con intervenciones [Me] y [Other]]

Transcripción completa en el panel

Cuando termina la sesión, la transcripción completa está disponible en la sección Historial del panel web. Puedes:

leerla filtrada por hablante;
copiarla completa o por fragmentos;
usarla como base para las analíticas y los mapas mentales.

📸 [Captura de pantalla: página de sesión en el panel — bloques de transcripción con etiquetas de hablante]

Errores comunes

Error	Causa	Solución
La voz del interlocutor no se transcribe	Permiso de Grabación de pantalla no concedido (macOS) o audio del sistema no disponible (Windows)	Permisos en macOS / Windows
Idioma incorrecto en la transcripción	Idioma de transcripción seleccionado incorrectamente	Cambia el idioma en la configuración y reinicia la sesión
El texto se mezcla entre hablantes	El micrófono captura ambos flujos de audio (eco)	Usa auriculares o reduce el volumen de los altavoces
Sin texto con conexión débil	El WebSocket se cae antes de que llegue la respuesta de Whisper	Mejora tu conexión; Whisperer se reconecta automáticamente

Buenas prácticas

Usa auriculares — esto elimina el eco acústico y mejora la separación de hablantes.
Selecciona el idioma correcto antes de la sesión — cambiar el idioma durante la grabación crea una nueva sesión.
En llamadas bilingües puedes seleccionar el idioma del interlocutor: Whisper seguirá reconociendo tu voz gracias a la pista de contexto.