Transcription en direct

Aperçu

La transcription en direct est une retranscription en temps réel de votre appel. Whisperer écoute l'audio sur deux flux indépendants — votre microphone (votre voix) et l'audio système (la voix de l'autre personne) — reconnaît la parole et étiquette instantanément les prises de parole par locuteur : [Me] et [Other]. Le texte défile dans l'overlay (LiveTranscriptStrip) et sert de contexte pour les suggestions de l'IA.

La reconnaissance s'effectue via le modèle Whisper en temps réel. La transcription fonctionne en streaming uniquement (temps réel) : l'audio est envoyé à la reconnaissance en courts fragments au fur et à mesure de l'enregistrement. Il n'y a pas d'envoi d'un fichier audio terminé pour une transcription par lot — Whisperer est conçu pour les appels en direct, pas pour le post-traitement d'enregistrements.

Quand l'utiliser

Tout appel vidéo. Whisperer fonctionne en overlay par-dessus Zoom, Google Meet, Microsoft Teams, Telegram, Discord et tout autre service — aucune intégration séparée n'est nécessaire.
Les entretiens (comportementaux et System Design), où vous ne pouvez pas vous permettre de manquer la formulation exacte d'une question.
Les cours, sessions de tutorat, ventes — lorsque vous avez besoin d'une transcription précise des remarques des deux parties.
Les appels multilingues — Whisper comprend des dizaines de langues ; la langue de reconnaissance est définie par session.

Pas à pas

Accordez les permissions. Sur macOS, les deux flux nécessitent deux autorisations : « Microphone » (votre voix) et « Enregistrement d'écran » (l'audio système de l'autre personne) ; sans « Enregistrement d'écran », l'autre personne ne sera pas entendue. Voir Permissions macOS. Sur Windows, l'audio système est capturé sans permission supplémentaire — seul l'accès au microphone est nécessaire ; voir Permissions Windows.
Choisissez la langue de transcription. Dans les paramètres de session, définissez la langue parlée. La valeur par défaut est ru. Whisper est multilingue ; pour un entretien en anglais, choisissez en, et pour un appel mixte, utilisez la langue principale de l'appel.
Ouvrez l'overlay et appuyez sur lecture. Un indicateur de volume (forme d'onde) apparaît dans la CommandBar — il confirme que l'audio est bien reçu.
Parlez et écoutez. Vos interventions sont étiquetées [Me], les interventions provenant de l'audio système sont étiquetées [Other]. La transcription se met à jour dans la LiveTranscriptStrip en temps réel.
(Optionnel) Activez la traduction. Si la traduction est activée dans les paramètres de l'overlay, une ligne de traduction (TranslationStrip) apparaît sous la transcription.
Terminez la session. Une fois terminé, la transcription est sauvegardée dans l'historique (sauf en mode no-logs — voir Limites et quotas).

Pourquoi la permission « Enregistrement d'écran » est nécessaire (macOS)

Sur macOS, l'audio provenant d'autres applications (la voix de l'autre personne dans Zoom/Meet) est capturé via le mécanisme d'enregistrement d'écran — la même fonctionnalité système que la capture d'écran. Whisperer demande donc la permission « Enregistrement d'écran » non pas pour surveiller votre écran, mais pour accéder techniquement au flux audio système (et pour prendre des captures d'écran pour les suggestions visuelles). Sans cette autorisation, seul le microphone est enregistré — vous êtes entendu, mais pas l'autre personne.

Sur Windows, c'est plus simple : l'audio système de l'autre personne est capturé sans permission supplémentaire — l'accès au microphone suffit. Les détails se trouvent dans Permissions Windows.

Captures d'écran

📸 [Capture d'écran : overlay avec une transcription défilante et l'étiquetage [Me]/[Other]]

📸 [Capture d'écran : choix de la langue de transcription dans les paramètres de session]

📸 [Capture d'écran : indicateur de volume (forme d'onde) dans la CommandBar]

Erreurs fréquentes

L'autre personne n'est pas entendue, la transcription n'affiche que [Me]. La permission « Enregistrement d'écran » n'a pas été accordée. Ouvrez Réglages Système → Confidentialité et sécurité → Enregistrement d'écran, activez Whisperer, puis redémarrez le client.
La transcription est dans la mauvaise langue / beaucoup d'erreurs de reconnaissance. La langue de transcription est mal configurée. Modifiez la langue de session pour qu'elle corresponde à la langue réelle de la conversation avant de démarrer.
Pas d'indicateur de volume. Aucun périphérique d'entrée n'est sélectionné ou l'accès au microphone n'est pas accordé — vérifiez « Microphone » dans vos paramètres de confidentialité.
Attente du téléversement d'un enregistrement. Il n'y a pas de transcription par lot d'un fichier terminé — la transcription fonctionne uniquement en direct pendant une session.

Bonnes pratiques

Avant une réunion importante, effectuez un appel test avec un collègue et vérifiez que l'autre personne apparaît bien dans la transcription sous [Other].
Activez la suppression de bruit dans les paramètres de l'overlay dans un environnement bruyant — cela améliore la précision de Whisper.
Pour les appels en plusieurs langues, choisissez la langue parlée la plupart du temps ; Whisper gère les changements de langue, mais il est préférable de définir explicitement la langue de base.
Si le contenu est sensible, utilisez le mode no-logs — la transcription ne sera pas sauvegardée dans la base de données (les minutes sont toutefois consommées).
Soignez votre élocution et évitez de parler en même temps — les prises de parole séparées sont étiquetées par locuteur avec plus de précision.