Transcripción y hablantes

Whisperer transcribe el habla en tiempo real utilizando Whisper — el modelo multilingüe de OpenAI. La diarización de hablantes se ejecuta simultáneamente: las palabras del usuario y las del interlocutor se etiquetan de forma diferente, lo que facilita la lectura de la transcripción y mejora la precisión de las respuestas de IA.

Cuándo leer este artículo

Lee este artículo para entender:

  • cómo configurar el idioma de reconocimiento;
  • por qué algunas intervenciones están etiquetadas como [Me] y otras como [Other];
  • qué idiomas son compatibles y cómo cambiar entre ellos.

Cómo funciona la transcripción

Whisperer captura dos flujos de audio:

Flujo Fuente Etiqueta
Voz del usuario Micrófono [Me]
Voz del interlocutor Audio del sistema (permiso de Grabación de pantalla en macOS / audio del sistema en Windows) [Other]

Cada fragmento de audio (~0,8 s) se envía al servidor con una etiqueta de hablante y se reconoce de forma independiente. El resultado aparece al instante en el LiveTranscriptStrip — el ticker desplazable en la parte inferior del overlay.

Idioma de transcripción

El idioma de reconocimiento se configura a nivel de sesión:

  1. Abre Configuración en el cliente (icono de engranaje) o en el panel web.
  2. Busca el campo Idioma de transcripción.
  3. Selecciona el idioma deseado en la lista estándar de códigos de idioma (p. ej., en, ru, zh, de).
  4. Inicia una nueva sesión — el idioma se aplicará a ella.

Whisper admite más de 90 idiomas. Si los participantes de la reunión hablan idiomas distintos, Whisper detecta automáticamente cada fragmento dentro de la "pista" del idioma seleccionado.

📸 [Captura de pantalla: ticker desplazable del LiveTranscriptStrip con intervenciones [Me] y [Other]]

Transcripción completa en el panel

Cuando termina la sesión, la transcripción completa está disponible en la sección Historial del panel web. Puedes:

  • leerla filtrada por hablante;
  • copiarla completa o por fragmentos;
  • usarla como base para las analíticas y los mapas mentales.

📸 [Captura de pantalla: página de sesión en el panel — bloques de transcripción con etiquetas de hablante]

Errores comunes

Error Causa Solución
La voz del interlocutor no se transcribe Permiso de Grabación de pantalla no concedido (macOS) o audio del sistema no disponible (Windows) Permisos en macOS / Windows
Idioma incorrecto en la transcripción Idioma de transcripción seleccionado incorrectamente Cambia el idioma en la configuración y reinicia la sesión
El texto se mezcla entre hablantes El micrófono captura ambos flujos de audio (eco) Usa auriculares o reduce el volumen de los altavoces
Sin texto con conexión débil El WebSocket se cae antes de que llegue la respuesta de Whisper Mejora tu conexión; Whisperer se reconecta automáticamente

Buenas prácticas

  • Usa auriculares — esto elimina el eco acústico y mejora la separación de hablantes.
  • Selecciona el idioma correcto antes de la sesión — cambiar el idioma durante la grabación crea una nueva sesión.
  • En llamadas bilingües puedes seleccionar el idioma del interlocutor: Whisper seguirá reconociendo tu voz gracias a la pista de contexto.

Artículos relacionados