Live-Transkription
Überblick
Die Live-Transkription ist eine Echtzeit-Mitschrift deines Gesprächs. Whisperer hört das Audio über zwei unabhängige Streams mit — dein Mikrofon (deine Stimme) und das Systemaudio (die Stimme des Gegenübers) — erkennt die Sprache und kennzeichnet die Äußerungen sofort nach Sprecher: [Me] und [Other]. Der Text läuft im Overlay (LiveTranscriptStrip) durch und dient als Kontext für die KI-Vorschläge.
Die Erkennung läuft in Echtzeit über das Whisper-Modell. Die Transkription erfolgt ausschließlich im Streaming-Modus (Echtzeit): Das Audio wird während der Aufnahme in kurzen Abschnitten zur Erkennung gesendet. Es gibt keinen Upload einer fertigen Audiodatei zur Batch-Transkription — Whisperer ist für Live-Gespräche gebaut, nicht für die Nachbearbeitung von Aufnahmen.
Wann zu verwenden
- Jeder Videoanruf. Whisperer arbeitet als Overlay über Zoom, Google Meet, Microsoft Teams, Telegram, Discord und jedem anderen Dienst — keine separate Integration erforderlich.
- Vorstellungsgespräche (verhaltensbasiert und System Design), bei denen du nicht überhören darfst, wie eine Frage formuliert ist.
- Vorlesungen, Nachhilfestunden, Vertrieb — wenn du eine präzise Mitschrift der Äußerungen beider Seiten brauchst.
- Mehrsprachige Gespräche — Whisper versteht Dutzende Sprachen; die Erkennungssprache wird pro Sitzung festgelegt.
Schritt für Schritt
- Berechtigungen erteilen. Unter macOS erfordern die beiden Streams zwei Freigaben: „Mikrofon" (deine Stimme) und „Bildschirmaufnahme" (das Systemaudio des Gegenübers); ohne „Bildschirmaufnahme" wird das Gegenüber nicht gehört. Siehe macOS-Berechtigungen. Unter Windows wird das Systemaudio ohne zusätzliche Berechtigung erfasst — du brauchst lediglich den Mikrofonzugriff; siehe Windows-Berechtigungen.
- Transkriptionssprache wählen. Lege in den Sitzungseinstellungen die gesprochene Sprache fest. Standard ist
ru. Whisper ist mehrsprachig — für ein englischsprachiges Vorstellungsgespräch setze alsoen, und für ein gemischtes Gespräch verwende die Hauptsprache des Gesprächs. - Overlay öffnen und auf Wiedergabe drücken. In der CommandBar erscheint eine Lautstärkeanzeige (Wellenform) — sie bestätigt, dass Audio ankommt.
- Sprechen und zuhören. Deine Äußerungen werden mit
[Me]gekennzeichnet, Äußerungen aus dem Systemaudio mit[Other]. Die Mitschrift aktualisiert sich im LiveTranscriptStrip in Echtzeit. - (Optional) Übersetzung aktivieren. Wenn die Übersetzung in den Overlay-Einstellungen aktiviert ist, erscheint unterhalb der Mitschrift eine Übersetzungszeile (TranslationStrip).
- Sitzung beenden. Wenn du fertig bist, wird die Mitschrift im Verlauf gespeichert (außer im No-Logs-Modus — siehe Limits und Kontingente).
Warum die Berechtigung „Bildschirmaufnahme" benötigt wird (macOS)
Unter macOS wird das Audio anderer Apps (die Stimme des Gegenübers in Zoom/Meet) über den Bildschirmaufnahme-Mechanismus erfasst — dieselbe Systemfunktion wie die Bildschirmaufzeichnung. Whisperer fordert die Berechtigung „Bildschirmaufnahme" daher nicht an, um deinen Bildschirm zu beobachten, sondern um technisch an den Systemaudio-Stream zu gelangen (und um Screenshots für Vision-Vorschläge zu erstellen). Ohne diese Freigabe wird nur das Mikrofon aufgezeichnet — du wirst gehört, das Gegenüber nicht.
Unter Windows ist es einfacher: Das Systemaudio des Gegenübers wird ohne zusätzliche Berechtigung erfasst — der Mikrofonzugriff genügt. Details findest du unter Windows-Berechtigungen.
Screenshots
📸 [Screenshot: Overlay mit durchlaufender Mitschrift und [Me]/[Other]-Kennzeichnung]
📸 [Screenshot: Auswahl der Transkriptionssprache in den Sitzungseinstellungen]
📸 [Screenshot: Lautstärkeanzeige (Wellenform) in der CommandBar]
Häufige Fehler
- Das Gegenüber wird nicht gehört, die Mitschrift zeigt nur
[Me]. Die Berechtigung „Bildschirmaufnahme" wurde nicht erteilt. Öffne Systemeinstellungen → Datenschutz & Sicherheit → Bildschirmaufnahme, aktiviere Whisperer und starte den Client anschließend neu. - Mitschrift in der falschen Sprache / viele Erkennungsfehler. Die Transkriptionssprache ist falsch eingestellt. Ändere die Sitzungssprache vor dem Start auf die tatsächliche Gesprächssprache.
- Keine Lautstärkeanzeige. Es ist kein Eingabegerät ausgewählt oder der Mikrofonzugriff ist nicht erteilt — prüfe „Mikrofon" in deinen Datenschutzeinstellungen.
- Warten auf den Upload einer Aufnahme. Es gibt keine Batch-Transkription einer fertigen Datei — die Transkription funktioniert nur live während einer Sitzung.
Bewährte Vorgehensweisen
- Führe vor einem wichtigen Meeting einen Testanruf mit einer Kollegin oder einem Kollegen durch und bestätige, dass das Gegenüber in der Mitschrift als
[Other]erscheint. - Aktiviere in einem lauten Raum die Rauschunterdrückung in den Overlay-Einstellungen — sie verbessert die Genauigkeit von Whisper.
- Wähle bei sprachlich gemischten Gesprächen die meistgesprochene Sprache; Whisper bewältigt Wechsel, aber es ist besser, die Basissprache explizit festzulegen.
- Verwende bei sensiblen Inhalten den No-Logs-Modus — die Mitschrift wird nicht in der Datenbank gespeichert (Minuten werden dennoch verbraucht).
- Achte auf klare Aussprache und vermeide gleichzeitiges Sprechen — getrennte Äußerungen werden präziser nach Sprecher gekennzeichnet.