Transcrição e Interlocutores
O Whisperer transcreve a fala em tempo real usando o Whisper — o modelo multilíngue da OpenAI. A diarização de interlocutores roda simultaneamente: as palavras do usuário e as do interlocutor recebem rótulos diferentes, o que torna a transcrição mais fácil de ler e melhora a precisão das respostas da IA.
Quando Ler Este Artigo
Leia este artigo para entender:
- como configurar o idioma de reconhecimento;
- por que algumas falas são rotuladas como [Eu] e outras como [Outro];
- quais idiomas são suportados e como alternar entre eles.
Como Funciona a Transcrição
O Whisperer captura dois fluxos de áudio:
| Fluxo | Origem | Rótulo |
|---|---|---|
| Voz do usuário | Microfone | [Eu] |
| Voz do interlocutor | Áudio do sistema (permissão de Gravação de Tela no macOS / áudio do sistema no Windows) | [Outro] |
Cada trecho de áudio (~0,8 s) é enviado ao servidor com um rótulo de interlocutor e é reconhecido de forma independente. O resultado aparece instantaneamente no LiveTranscriptStrip — o teletipo deslizante na parte inferior do overlay.
Idioma da Transcrição
O idioma de reconhecimento é definido no nível da sessão:
- Abra Configurações no cliente (ícone de engrenagem) ou no painel web.
- Encontre o campo Idioma da Transcrição.
- Selecione o idioma desejado na lista padrão de códigos de idioma (por exemplo,
en,ru,zh,de). - Inicie uma nova sessão — o idioma será aplicado a ela.
O Whisper suporta mais de 90 idiomas. Se os participantes da reunião falam idiomas diferentes, o Whisper detecta automaticamente cada trecho dentro da "dica" de idioma selecionada.
📸 [Captura de tela: teletipo deslizante do LiveTranscriptStrip com falas [Eu] e [Outro]]
Transcrição Completa no Painel
Após o término da sessão, a transcrição completa fica disponível na seção Histórico do painel web. Você pode:
- lê-la filtrada por interlocutor;
- copiá-la por inteiro ou em fragmentos;
- usá-la como base para análises e mapas mentais.
📸 [Captura de tela: página da sessão no painel — blocos de transcrição com rótulos de interlocutor]
Erros Comuns
| Erro | Causa | Solução |
|---|---|---|
| A voz do interlocutor não é transcrita | Permissão de Gravação de Tela não concedida (macOS) ou áudio do sistema indisponível (Windows) | Permissões do macOS / Windows |
| Idioma errado na transcrição | Idioma de transcrição incorreto selecionado | Altere o idioma nas configurações e reinicie a sessão |
| O texto se mistura entre os interlocutores | O microfone capta ambos os fluxos de áudio (eco) | Use fones de ouvido ou diminua o volume das caixas de som |
| Sem texto em uma conexão fraca | O WebSocket cai antes de a resposta do Whisper chegar | Melhore sua conexão; o Whisperer reconecta automaticamente |
Boas Práticas
- Use fones de ouvido — isso elimina o eco acústico e melhora a separação dos interlocutores.
- Selecione o idioma correto antes da sessão — alterar o idioma no meio da gravação cria uma nova sessão.
- Em chamadas bilíngues você pode selecionar o idioma do interlocutor: o Whisper ainda reconhecerá a sua fala graças à dica de contexto.