Transkript und Sprecher

Whisperer transkribiert Sprache in Echtzeit mithilfe von Whisper — OpenAIs mehrsprachigem Modell. Die Sprecherdiarisierung läuft parallel: Die Worte des Nutzers und die des Gesprächspartners werden unterschiedlich gekennzeichnet, was das Transkript leichter lesbar macht und die Genauigkeit der KI-Antworten verbessert.

Wann Sie diesen Artikel lesen sollten

Lesen Sie diesen Artikel, um zu verstehen:

wie Sie die Erkennungssprache konfigurieren;
warum manche Äußerungen mit [Me] und andere mit [Other] gekennzeichnet sind;
welche Sprachen unterstützt werden und wie Sie zwischen ihnen wechseln.

Wie die Transkription funktioniert

Whisperer erfasst zwei Audiostreams:

Stream	Quelle	Kennzeichnung
Stimme des Nutzers	Mikrofon	[Me]
Stimme des Gesprächspartners	Systemaudio (Berechtigung zur Bildschirmaufnahme unter macOS / Systemaudio unter Windows)	[Other]

Jedes Audiofragment (~0,8 s) wird mit einer Sprecherkennzeichnung an den Server gesendet und unabhängig erkannt. Das Ergebnis erscheint sofort im LiveTranscriptStrip — dem scrollenden Ticker am unteren Rand des Overlays.

Transkriptionssprache

Die Erkennungssprache wird auf Sitzungsebene festgelegt:

Öffnen Sie Einstellungen im Client (Zahnrad-Symbol) oder im Web-Dashboard.
Suchen Sie das Feld Transkriptionssprache.
Wählen Sie die gewünschte Sprache aus der Standardliste der Sprachcodes aus (z. B. en, ru, zh, de).
Starten Sie eine neue Sitzung — die Sprache wird auf diese angewendet.

Whisper unterstützt mehr als 90 Sprachen. Wenn die Sitzungsteilnehmer verschiedene Sprachen sprechen, erkennt Whisper jedes Fragment automatisch innerhalb des ausgewählten Sprach-„Hinweises".

📸 [Screenshot: scrollender LiveTranscriptStrip-Ticker mit Äußerungen von [Me] und [Other]]

Vollständiges Transkript im Dashboard

Nach dem Ende der Sitzung ist das vollständige Transkript im Bereich Verlauf des Web-Dashboards verfügbar. Sie können:

es gefiltert nach Sprecher lesen;
es vollständig oder in Ausschnitten kopieren;
es als Grundlage für Analysen und Mind-Maps verwenden.

📸 [Screenshot: Sitzungsseite im Dashboard — Transkriptblöcke mit Sprecherkennzeichnungen]

Häufige Fehler

Fehler	Ursache	Lösung
Stimme des Gesprächspartners wird nicht transkribiert	Berechtigung zur Bildschirmaufnahme nicht erteilt (macOS) oder Systemaudio nicht verfügbar (Windows)	macOS-Berechtigungen / Windows
Falsche Sprache im Transkript	Falsche Transkriptionssprache ausgewählt	Sprache in den Einstellungen ändern und Sitzung neu starten
Text vermischt sich zwischen Sprechern	Mikrofon erfasst beide Audiostreams (Echo)	Kopfhörer verwenden oder Lautsprecherlautstärke reduzieren
Kein Text bei schwacher Verbindung	WebSocket bricht ab, bevor die Whisper-Antwort eintrifft	Verbindung verbessern; Whisperer verbindet sich automatisch neu

Bewährte Vorgehensweisen

Kopfhörer verwenden — dies eliminiert akustisches Echo und verbessert die Sprechertrennung.
Vor der Sitzung die richtige Sprache auswählen — das Ändern der Sprache während der Aufnahme erstellt eine neue Sitzung.
Bei zweisprachigen Gesprächen können Sie die Sprache des Gesprächspartners auswählen: Whisper erkennt Ihre Sprache dennoch dank des Kontext-Hinweises.