Transcrição e Interlocutores

O Whisperer transcreve a fala em tempo real usando o Whisper — o modelo multilíngue da OpenAI. A diarização de interlocutores roda simultaneamente: as palavras do usuário e as do interlocutor recebem rótulos diferentes, o que torna a transcrição mais fácil de ler e melhora a precisão das respostas da IA.

Quando Ler Este Artigo

Leia este artigo para entender:

como configurar o idioma de reconhecimento;
por que algumas falas são rotuladas como [Eu] e outras como [Outro];
quais idiomas são suportados e como alternar entre eles.

Como Funciona a Transcrição

O Whisperer captura dois fluxos de áudio:

Fluxo	Origem	Rótulo
Voz do usuário	Microfone	[Eu]
Voz do interlocutor	Áudio do sistema (permissão de Gravação de Tela no macOS / áudio do sistema no Windows)	[Outro]

Cada trecho de áudio (~0,8 s) é enviado ao servidor com um rótulo de interlocutor e é reconhecido de forma independente. O resultado aparece instantaneamente no LiveTranscriptStrip — o teletipo deslizante na parte inferior do overlay.

Idioma da Transcrição

O idioma de reconhecimento é definido no nível da sessão:

Abra Configurações no cliente (ícone de engrenagem) ou no painel web.
Encontre o campo Idioma da Transcrição.
Selecione o idioma desejado na lista padrão de códigos de idioma (por exemplo, en, ru, zh, de).
Inicie uma nova sessão — o idioma será aplicado a ela.

O Whisper suporta mais de 90 idiomas. Se os participantes da reunião falam idiomas diferentes, o Whisper detecta automaticamente cada trecho dentro da "dica" de idioma selecionada.

📸 [Captura de tela: teletipo deslizante do LiveTranscriptStrip com falas [Eu] e [Outro]]

Transcrição Completa no Painel

Após o término da sessão, a transcrição completa fica disponível na seção Histórico do painel web. Você pode:

lê-la filtrada por interlocutor;
copiá-la por inteiro ou em fragmentos;
usá-la como base para análises e mapas mentais.

📸 [Captura de tela: página da sessão no painel — blocos de transcrição com rótulos de interlocutor]

Erros Comuns

Erro	Causa	Solução
A voz do interlocutor não é transcrita	Permissão de Gravação de Tela não concedida (macOS) ou áudio do sistema indisponível (Windows)	Permissões do macOS / Windows
Idioma errado na transcrição	Idioma de transcrição incorreto selecionado	Altere o idioma nas configurações e reinicie a sessão
O texto se mistura entre os interlocutores	O microfone capta ambos os fluxos de áudio (eco)	Use fones de ouvido ou diminua o volume das caixas de som
Sem texto em uma conexão fraca	O WebSocket cai antes de a resposta do Whisper chegar	Melhore sua conexão; o Whisperer reconecta automaticamente

Boas Práticas

Use fones de ouvido — isso elimina o eco acústico e melhora a separação dos interlocutores.
Selecione o idioma correto antes da sessão — alterar o idioma no meio da gravação cria uma nova sessão.
Em chamadas bilíngues você pode selecionar o idioma do interlocutor: o Whisper ainda reconhecerá a sua fala graças à dica de contexto.