Live-Transkription

Überblick

Die Live-Transkription ist eine Echtzeit-Mitschrift deines Gesprächs. Whisperer hört das Audio über zwei unabhängige Streams mit — dein Mikrofon (deine Stimme) und das Systemaudio (die Stimme des Gegenübers) — erkennt die Sprache und kennzeichnet die Äußerungen sofort nach Sprecher: [Me] und [Other]. Der Text läuft im Overlay (LiveTranscriptStrip) durch und dient als Kontext für die KI-Vorschläge.

Die Erkennung läuft in Echtzeit über das Whisper-Modell. Die Transkription erfolgt ausschließlich im Streaming-Modus (Echtzeit): Das Audio wird während der Aufnahme in kurzen Abschnitten zur Erkennung gesendet. Es gibt keinen Upload einer fertigen Audiodatei zur Batch-Transkription — Whisperer ist für Live-Gespräche gebaut, nicht für die Nachbearbeitung von Aufnahmen.

Wann zu verwenden

Jeder Videoanruf. Whisperer arbeitet als Overlay über Zoom, Google Meet, Microsoft Teams, Telegram, Discord und jedem anderen Dienst — keine separate Integration erforderlich.
Vorstellungsgespräche (verhaltensbasiert und System Design), bei denen du nicht überhören darfst, wie eine Frage formuliert ist.
Vorlesungen, Nachhilfestunden, Vertrieb — wenn du eine präzise Mitschrift der Äußerungen beider Seiten brauchst.
Mehrsprachige Gespräche — Whisper versteht Dutzende Sprachen; die Erkennungssprache wird pro Sitzung festgelegt.

Schritt für Schritt

Berechtigungen erteilen. Unter macOS erfordern die beiden Streams zwei Freigaben: „Mikrofon" (deine Stimme) und „Bildschirmaufnahme" (das Systemaudio des Gegenübers); ohne „Bildschirmaufnahme" wird das Gegenüber nicht gehört. Siehe macOS-Berechtigungen. Unter Windows wird das Systemaudio ohne zusätzliche Berechtigung erfasst — du brauchst lediglich den Mikrofonzugriff; siehe Windows-Berechtigungen.
Transkriptionssprache wählen. Lege in den Sitzungseinstellungen die gesprochene Sprache fest. Standard ist ru. Whisper ist mehrsprachig — für ein englischsprachiges Vorstellungsgespräch setze also en, und für ein gemischtes Gespräch verwende die Hauptsprache des Gesprächs.
Overlay öffnen und auf Wiedergabe drücken. In der CommandBar erscheint eine Lautstärkeanzeige (Wellenform) — sie bestätigt, dass Audio ankommt.
Sprechen und zuhören. Deine Äußerungen werden mit [Me] gekennzeichnet, Äußerungen aus dem Systemaudio mit [Other]. Die Mitschrift aktualisiert sich im LiveTranscriptStrip in Echtzeit.
(Optional) Übersetzung aktivieren. Wenn die Übersetzung in den Overlay-Einstellungen aktiviert ist, erscheint unterhalb der Mitschrift eine Übersetzungszeile (TranslationStrip).
Sitzung beenden. Wenn du fertig bist, wird die Mitschrift im Verlauf gespeichert (außer im No-Logs-Modus — siehe Limits und Kontingente).

Warum die Berechtigung „Bildschirmaufnahme" benötigt wird (macOS)

Unter macOS wird das Audio anderer Apps (die Stimme des Gegenübers in Zoom/Meet) über den Bildschirmaufnahme-Mechanismus erfasst — dieselbe Systemfunktion wie die Bildschirmaufzeichnung. Whisperer fordert die Berechtigung „Bildschirmaufnahme" daher nicht an, um deinen Bildschirm zu beobachten, sondern um technisch an den Systemaudio-Stream zu gelangen (und um Screenshots für Vision-Vorschläge zu erstellen). Ohne diese Freigabe wird nur das Mikrofon aufgezeichnet — du wirst gehört, das Gegenüber nicht.

Unter Windows ist es einfacher: Das Systemaudio des Gegenübers wird ohne zusätzliche Berechtigung erfasst — der Mikrofonzugriff genügt. Details findest du unter Windows-Berechtigungen.

Screenshots

📸 [Screenshot: Overlay mit durchlaufender Mitschrift und [Me]/[Other]-Kennzeichnung]

📸 [Screenshot: Auswahl der Transkriptionssprache in den Sitzungseinstellungen]

📸 [Screenshot: Lautstärkeanzeige (Wellenform) in der CommandBar]

Häufige Fehler

Das Gegenüber wird nicht gehört, die Mitschrift zeigt nur [Me]. Die Berechtigung „Bildschirmaufnahme" wurde nicht erteilt. Öffne Systemeinstellungen → Datenschutz & Sicherheit → Bildschirmaufnahme, aktiviere Whisperer und starte den Client anschließend neu.
Mitschrift in der falschen Sprache / viele Erkennungsfehler. Die Transkriptionssprache ist falsch eingestellt. Ändere die Sitzungssprache vor dem Start auf die tatsächliche Gesprächssprache.
Keine Lautstärkeanzeige. Es ist kein Eingabegerät ausgewählt oder der Mikrofonzugriff ist nicht erteilt — prüfe „Mikrofon" in deinen Datenschutzeinstellungen.
Warten auf den Upload einer Aufnahme. Es gibt keine Batch-Transkription einer fertigen Datei — die Transkription funktioniert nur live während einer Sitzung.

Bewährte Vorgehensweisen

Führe vor einem wichtigen Meeting einen Testanruf mit einer Kollegin oder einem Kollegen durch und bestätige, dass das Gegenüber in der Mitschrift als [Other] erscheint.
Aktiviere in einem lauten Raum die Rauschunterdrückung in den Overlay-Einstellungen — sie verbessert die Genauigkeit von Whisper.
Wähle bei sprachlich gemischten Gesprächen die meistgesprochene Sprache; Whisper bewältigt Wechsel, aber es ist besser, die Basissprache explizit festzulegen.
Verwende bei sensiblen Inhalten den No-Logs-Modus — die Mitschrift wird nicht in der Datenbank gespeichert (Minuten werden dennoch verbraucht).
Achte auf klare Aussprache und vermeide gleichzeitiges Sprechen — getrennte Äußerungen werden präziser nach Sprecher gekennzeichnet.