Transcription et Intervenants

Whisperer transcrit la parole en temps réel grâce à Whisper — le modèle multilingue d'OpenAI. La diarisation des intervenants s'effectue simultanément : les paroles de l'utilisateur et celles de son interlocuteur sont étiquetées différemment, ce qui facilite la lecture de la transcription et améliore la précision des réponses de l'IA.

À qui s'adresse cet article

Lisez cet article pour comprendre :

comment configurer la langue de reconnaissance ;
pourquoi certaines répliques sont étiquetées [Me] et d'autres [Other] ;
quelles langues sont prises en charge et comment basculer entre elles.

Fonctionnement de la transcription

Whisperer capture deux flux audio :

Flux	Source	Étiquette
Voix de l'utilisateur	Microphone	[Me]
Voix de l'interlocuteur	Audio système (permission Enregistrement d'écran sur macOS / audio système sur Windows)	[Other]

Chaque segment audio (~0,8 s) est envoyé au serveur avec une étiquette d'intervenant et est reconnu de façon indépendante. Le résultat s'affiche instantanément dans la LiveTranscriptStrip — le bandeau défilant en bas de l'overlay.

Langue de transcription

La langue de reconnaissance est définie au niveau de la session :

Ouvrez Paramètres dans le client (icône engrenage) ou dans le tableau de bord web.
Repérez le champ Langue de transcription.
Sélectionnez la langue souhaitée dans la liste standard des codes de langue (ex. : en, ru, zh, de).
Démarrez une nouvelle session — la langue lui sera appliquée.

Whisper prend en charge plus de 90 langues. Si les participants à la réunion parlent des langues différentes, Whisper détecte automatiquement la langue de chaque segment en tenant compte de l'« indice » de langue sélectionné.

📸 [Capture d'écran : bandeau défilant LiveTranscriptStrip avec des répliques [Me] et [Other]]

Transcription complète dans le tableau de bord

Une fois la session terminée, la transcription complète est disponible dans la section Historique du tableau de bord web. Vous pouvez :

la consulter filtrée par intervenant ;
la copier intégralement ou par fragments ;
l'utiliser comme base pour des analyses et des cartes mentales.

📸 [Capture d'écran : page de session dans le tableau de bord — blocs de transcription avec étiquettes d'intervenant]

Erreurs courantes

Erreur	Cause	Solution
La voix de l'interlocuteur n'est pas transcrite	Permission Enregistrement d'écran non accordée (macOS) ou audio système indisponible (Windows)	Permissions macOS / Windows
Mauvaise langue dans la transcription	Langue de transcription incorrectement sélectionnée	Modifiez la langue dans les paramètres et redémarrez la session
Le texte se mélange entre les intervenants	Le microphone capte les deux flux audio (écho)	Utilisez un casque ou réduisez le volume des haut-parleurs
Aucun texte avec une connexion faible	Le WebSocket se coupe avant l'arrivée de la réponse de Whisper	Améliorez votre connexion ; Whisperer se reconnecte automatiquement

Bonnes pratiques

Utilisez un casque — cela élimine l'écho acoustique et améliore la séparation des intervenants.
Sélectionnez la bonne langue avant la session — changer de langue en cours d'enregistrement crée une nouvelle session.
Lors d'appels bilingues, vous pouvez sélectionner la langue de votre interlocuteur : Whisper reconnaîtra quand même votre parole grâce à l'indice de contexte.