Transcripción y hablantes
Whisperer transcribe el habla en tiempo real utilizando Whisper — el modelo multilingüe de OpenAI. La diarización de hablantes se ejecuta simultáneamente: las palabras del usuario y las del interlocutor se etiquetan de forma diferente, lo que facilita la lectura de la transcripción y mejora la precisión de las respuestas de IA.
Cuándo leer este artículo
Lee este artículo para entender:
- cómo configurar el idioma de reconocimiento;
- por qué algunas intervenciones están etiquetadas como [Me] y otras como [Other];
- qué idiomas son compatibles y cómo cambiar entre ellos.
Cómo funciona la transcripción
Whisperer captura dos flujos de audio:
| Flujo | Fuente | Etiqueta |
|---|---|---|
| Voz del usuario | Micrófono | [Me] |
| Voz del interlocutor | Audio del sistema (permiso de Grabación de pantalla en macOS / audio del sistema en Windows) | [Other] |
Cada fragmento de audio (~0,8 s) se envía al servidor con una etiqueta de hablante y se reconoce de forma independiente. El resultado aparece al instante en el LiveTranscriptStrip — el ticker desplazable en la parte inferior del overlay.
Idioma de transcripción
El idioma de reconocimiento se configura a nivel de sesión:
- Abre Configuración en el cliente (icono de engranaje) o en el panel web.
- Busca el campo Idioma de transcripción.
- Selecciona el idioma deseado en la lista estándar de códigos de idioma (p. ej.,
en,ru,zh,de). - Inicia una nueva sesión — el idioma se aplicará a ella.
Whisper admite más de 90 idiomas. Si los participantes de la reunión hablan idiomas distintos, Whisper detecta automáticamente cada fragmento dentro de la "pista" del idioma seleccionado.
📸 [Captura de pantalla: ticker desplazable del LiveTranscriptStrip con intervenciones [Me] y [Other]]
Transcripción completa en el panel
Cuando termina la sesión, la transcripción completa está disponible en la sección Historial del panel web. Puedes:
- leerla filtrada por hablante;
- copiarla completa o por fragmentos;
- usarla como base para las analíticas y los mapas mentales.
📸 [Captura de pantalla: página de sesión en el panel — bloques de transcripción con etiquetas de hablante]
Errores comunes
| Error | Causa | Solución |
|---|---|---|
| La voz del interlocutor no se transcribe | Permiso de Grabación de pantalla no concedido (macOS) o audio del sistema no disponible (Windows) | Permisos en macOS / Windows |
| Idioma incorrecto en la transcripción | Idioma de transcripción seleccionado incorrectamente | Cambia el idioma en la configuración y reinicia la sesión |
| El texto se mezcla entre hablantes | El micrófono captura ambos flujos de audio (eco) | Usa auriculares o reduce el volumen de los altavoces |
| Sin texto con conexión débil | El WebSocket se cae antes de que llegue la respuesta de Whisper | Mejora tu conexión; Whisperer se reconecta automáticamente |
Buenas prácticas
- Usa auriculares — esto elimina el eco acústico y mejora la separación de hablantes.
- Selecciona el idioma correcto antes de la sesión — cambiar el idioma durante la grabación crea una nueva sesión.
- En llamadas bilingües puedes seleccionar el idioma del interlocutor: Whisper seguirá reconociendo tu voz gracias a la pista de contexto.