Transkript und Sprecher
Whisperer transkribiert Sprache in Echtzeit mithilfe von Whisper — OpenAIs mehrsprachigem Modell. Die Sprecherdiarisierung läuft parallel: Die Worte des Nutzers und die des Gesprächspartners werden unterschiedlich gekennzeichnet, was das Transkript leichter lesbar macht und die Genauigkeit der KI-Antworten verbessert.
Wann Sie diesen Artikel lesen sollten
Lesen Sie diesen Artikel, um zu verstehen:
- wie Sie die Erkennungssprache konfigurieren;
- warum manche Äußerungen mit [Me] und andere mit [Other] gekennzeichnet sind;
- welche Sprachen unterstützt werden und wie Sie zwischen ihnen wechseln.
Wie die Transkription funktioniert
Whisperer erfasst zwei Audiostreams:
| Stream | Quelle | Kennzeichnung |
|---|---|---|
| Stimme des Nutzers | Mikrofon | [Me] |
| Stimme des Gesprächspartners | Systemaudio (Berechtigung zur Bildschirmaufnahme unter macOS / Systemaudio unter Windows) | [Other] |
Jedes Audiofragment (~0,8 s) wird mit einer Sprecherkennzeichnung an den Server gesendet und unabhängig erkannt. Das Ergebnis erscheint sofort im LiveTranscriptStrip — dem scrollenden Ticker am unteren Rand des Overlays.
Transkriptionssprache
Die Erkennungssprache wird auf Sitzungsebene festgelegt:
- Öffnen Sie Einstellungen im Client (Zahnrad-Symbol) oder im Web-Dashboard.
- Suchen Sie das Feld Transkriptionssprache.
- Wählen Sie die gewünschte Sprache aus der Standardliste der Sprachcodes aus (z. B.
en,ru,zh,de). - Starten Sie eine neue Sitzung — die Sprache wird auf diese angewendet.
Whisper unterstützt mehr als 90 Sprachen. Wenn die Sitzungsteilnehmer verschiedene Sprachen sprechen, erkennt Whisper jedes Fragment automatisch innerhalb des ausgewählten Sprach-„Hinweises".
📸 [Screenshot: scrollender LiveTranscriptStrip-Ticker mit Äußerungen von [Me] und [Other]]
Vollständiges Transkript im Dashboard
Nach dem Ende der Sitzung ist das vollständige Transkript im Bereich Verlauf des Web-Dashboards verfügbar. Sie können:
- es gefiltert nach Sprecher lesen;
- es vollständig oder in Ausschnitten kopieren;
- es als Grundlage für Analysen und Mind-Maps verwenden.
📸 [Screenshot: Sitzungsseite im Dashboard — Transkriptblöcke mit Sprecherkennzeichnungen]
Häufige Fehler
| Fehler | Ursache | Lösung |
|---|---|---|
| Stimme des Gesprächspartners wird nicht transkribiert | Berechtigung zur Bildschirmaufnahme nicht erteilt (macOS) oder Systemaudio nicht verfügbar (Windows) | macOS-Berechtigungen / Windows |
| Falsche Sprache im Transkript | Falsche Transkriptionssprache ausgewählt | Sprache in den Einstellungen ändern und Sitzung neu starten |
| Text vermischt sich zwischen Sprechern | Mikrofon erfasst beide Audiostreams (Echo) | Kopfhörer verwenden oder Lautsprecherlautstärke reduzieren |
| Kein Text bei schwacher Verbindung | WebSocket bricht ab, bevor die Whisper-Antwort eintrifft | Verbindung verbessern; Whisperer verbindet sich automatisch neu |
Bewährte Vorgehensweisen
- Kopfhörer verwenden — dies eliminiert akustisches Echo und verbessert die Sprechertrennung.
- Vor der Sitzung die richtige Sprache auswählen — das Ändern der Sprache während der Aufnahme erstellt eine neue Sitzung.
- Bei zweisprachigen Gesprächen können Sie die Sprache des Gesprächspartners auswählen: Whisper erkennt Ihre Sprache dennoch dank des Kontext-Hinweises.