Trascrizione in tempo reale

Panoramica

La trascrizione in tempo reale è una trascrizione istantanea della tua chiamata. Whisperer ascolta l'audio attraverso due flussi indipendenti — il tuo microfono (la tua voce) e l'audio di sistema (la voce dell'altra persona) — riconosce il parlato e contrassegna immediatamente gli interventi per interlocutore: [Me] e [Other]. Il testo scorre nell'overlay (LiveTranscriptStrip) e funge da contesto per i suggerimenti dell'AI.

Il riconoscimento avviene tramite il modello Whisper in tempo reale. La trascrizione è solo in streaming (in tempo reale): l'audio viene inviato al riconoscimento in brevi segmenti man mano che viene registrato. Non è previsto il caricamento di un file audio già pronto per la trascrizione in batch — Whisperer è progettato per le chiamate dal vivo, non per l'elaborazione successiva delle registrazioni.

Quando usarla

Qualsiasi videochiamata. Whisperer funziona come overlay sopra Zoom, Google Meet, Microsoft Teams, Telegram, Discord e qualsiasi altro servizio — senza bisogno di un'integrazione separata.
Colloqui (comportamentali e di System Design), dove non puoi permetterti di perderti come viene formulata una domanda.
Lezioni, sessioni di tutoraggio, vendite — quando ti serve una trascrizione accurata degli interventi di entrambe le parti.
Chiamate multilingue — Whisper comprende decine di lingue; la lingua di riconoscimento viene impostata per ciascuna sessione.

Passo dopo passo

Concedi i permessi. Su macOS, i due flussi richiedono due autorizzazioni: "Microfono" (la tua voce) e "Registrazione schermo" (l'audio di sistema dell'altra persona); senza "Registrazione schermo" l'altra persona non verrà sentita. Vedi Permessi macOS. Su Windows, l'audio di sistema viene catturato senza alcun permesso aggiuntivo — ti serve solo l'accesso al microfono; vedi Permessi Windows.
Scegli la lingua di trascrizione. Nelle impostazioni della sessione, imposta la lingua parlata. Il valore predefinito è ru. Whisper è multilingue, quindi per un colloquio in inglese imposta en, e per una chiamata mista usa la lingua principale della chiamata.
Apri l'overlay e premi play. Nella CommandBar compare un indicatore di volume (forma d'onda) — conferma che l'audio sta arrivando.
Parla e ascolta. I tuoi interventi sono contrassegnati con [Me], gli interventi dall'audio di sistema con [Other]. La trascrizione si aggiorna nella LiveTranscriptStrip in tempo reale.
(Opzionale) Attiva la traduzione. Se la traduzione è abilitata nelle impostazioni dell'overlay, sotto la trascrizione compare una riga di traduzione (TranslationStrip).
Termina la sessione. Quando hai finito, la trascrizione viene salvata nella cronologia (eccetto in modalità no-logs — vedi Limiti e quote).

Perché serve il permesso "Registrazione schermo" (macOS)

Su macOS, l'audio proveniente da altre app (la voce dell'altra persona in Zoom/Meet) viene catturato tramite il meccanismo di registrazione schermo — la stessa funzione di sistema usata per la cattura dello schermo. Per questo Whisperer richiede il permesso "Registrazione schermo" non per osservare il tuo schermo, ma per ottenere tecnicamente il flusso audio di sistema (e per acquisire screenshot per i suggerimenti basati sulla visione). Senza questa autorizzazione viene registrato solo il microfono — tu vieni sentito, l'altra persona no.

Su Windows è più semplice: l'audio di sistema dell'altra persona viene catturato senza alcun permesso aggiuntivo — l'accesso al microfono è sufficiente. I dettagli sono in Permessi Windows.

Screenshot

📸 [Screenshot: overlay con una trascrizione che scorre e tagging [Me]/[Other]]

📸 [Screenshot: scelta della lingua di trascrizione nelle impostazioni della sessione]

📸 [Screenshot: indicatore di volume (forma d'onda) nella CommandBar]

Errori comuni

L'altra persona non viene sentita, la trascrizione mostra solo [Me]. Il permesso "Registrazione schermo" non è stato concesso. Apri Impostazioni di sistema → Privacy e sicurezza → Registrazione schermo, abilita Whisperer, poi riavvia il client.
La trascrizione è nella lingua sbagliata / molti errori di riconoscimento. La lingua di trascrizione è impostata in modo errato. Cambia la lingua della sessione con la lingua effettiva della conversazione prima di iniziare.
Nessun indicatore di volume. Non è selezionato alcun dispositivo di ingresso o l'accesso al microfono non è concesso — controlla "Microfono" nelle impostazioni della privacy.
In attesa del caricamento di una registrazione. Non esiste la trascrizione in batch di un file già pronto — la trascrizione funziona solo dal vivo durante una sessione.

Buone pratiche

Prima di una riunione importante, fai una chiamata di prova con un collega e verifica che l'altra persona compaia nella trascrizione come [Other].
Attiva la soppressione del rumore nelle impostazioni dell'overlay in una stanza rumorosa — migliora l'accuratezza di Whisper.
Per le chiamate con più lingue, scegli la lingua parlata la maggior parte del tempo; Whisper gestisce i cambi, ma è meglio impostare esplicitamente la lingua di base.
Se il contenuto è sensibile, usa la modalità no-logs — la trascrizione non verrà salvata nel database (i minuti vengono comunque consumati).
Mantieni una dizione chiara ed evita di parlare sovrapponendoti — gli interventi separati vengono contrassegnati per interlocutore con maggiore precisione.