Transcription et Intervenants
Whisperer transcrit la parole en temps réel grâce à Whisper — le modèle multilingue d'OpenAI. La diarisation des intervenants s'effectue simultanément : les paroles de l'utilisateur et celles de son interlocuteur sont étiquetées différemment, ce qui facilite la lecture de la transcription et améliore la précision des réponses de l'IA.
À qui s'adresse cet article
Lisez cet article pour comprendre :
- comment configurer la langue de reconnaissance ;
- pourquoi certaines répliques sont étiquetées [Me] et d'autres [Other] ;
- quelles langues sont prises en charge et comment basculer entre elles.
Fonctionnement de la transcription
Whisperer capture deux flux audio :
| Flux | Source | Étiquette |
|---|---|---|
| Voix de l'utilisateur | Microphone | [Me] |
| Voix de l'interlocuteur | Audio système (permission Enregistrement d'écran sur macOS / audio système sur Windows) | [Other] |
Chaque segment audio (~0,8 s) est envoyé au serveur avec une étiquette d'intervenant et est reconnu de façon indépendante. Le résultat s'affiche instantanément dans la LiveTranscriptStrip — le bandeau défilant en bas de l'overlay.
Langue de transcription
La langue de reconnaissance est définie au niveau de la session :
- Ouvrez Paramètres dans le client (icône engrenage) ou dans le tableau de bord web.
- Repérez le champ Langue de transcription.
- Sélectionnez la langue souhaitée dans la liste standard des codes de langue (ex. :
en,ru,zh,de). - Démarrez une nouvelle session — la langue lui sera appliquée.
Whisper prend en charge plus de 90 langues. Si les participants à la réunion parlent des langues différentes, Whisper détecte automatiquement la langue de chaque segment en tenant compte de l'« indice » de langue sélectionné.
📸 [Capture d'écran : bandeau défilant LiveTranscriptStrip avec des répliques [Me] et [Other]]
Transcription complète dans le tableau de bord
Une fois la session terminée, la transcription complète est disponible dans la section Historique du tableau de bord web. Vous pouvez :
- la consulter filtrée par intervenant ;
- la copier intégralement ou par fragments ;
- l'utiliser comme base pour des analyses et des cartes mentales.
📸 [Capture d'écran : page de session dans le tableau de bord — blocs de transcription avec étiquettes d'intervenant]
Erreurs courantes
| Erreur | Cause | Solution |
|---|---|---|
| La voix de l'interlocuteur n'est pas transcrite | Permission Enregistrement d'écran non accordée (macOS) ou audio système indisponible (Windows) | Permissions macOS / Windows |
| Mauvaise langue dans la transcription | Langue de transcription incorrectement sélectionnée | Modifiez la langue dans les paramètres et redémarrez la session |
| Le texte se mélange entre les intervenants | Le microphone capte les deux flux audio (écho) | Utilisez un casque ou réduisez le volume des haut-parleurs |
| Aucun texte avec une connexion faible | Le WebSocket se coupe avant l'arrivée de la réponse de Whisper | Améliorez votre connexion ; Whisperer se reconnecte automatiquement |
Bonnes pratiques
- Utilisez un casque — cela élimine l'écho acoustique et améliore la séparation des intervenants.
- Sélectionnez la bonne langue avant la session — changer de langue en cours d'enregistrement crée une nouvelle session.
- Lors d'appels bilingues, vous pouvez sélectionner la langue de votre interlocuteur : Whisper reconnaîtra quand même votre parole grâce à l'indice de contexte.