스크립트와 화자
Whisperer는 OpenAI의 다국어 모델인 Whisper를 사용해 음성을 실시간으로 받아쓰기합니다. 화자 분리(diarization)도 동시에 실행됩니다. 사용자의 말과 상대방의 말이 서로 다르게 표시되어 스크립트를 읽기 쉽게 만들고 AI 응답의 정확도를 높여 줍니다.
이 글을 읽어야 할 때
이 글은 다음을 이해하는 데 도움이 됩니다.
- 인식 언어를 설정하는 방법;
- 일부 발화가 [Me]로, 다른 발화가 [Other]로 표시되는 이유;
- 어떤 언어가 지원되며 그 사이를 어떻게 전환하는지.
받아쓰기 작동 방식
Whisperer는 두 개의 오디오 스트림을 캡처합니다.
| 스트림 | 출처 | 라벨 |
|---|---|---|
| 사용자 음성 | 마이크 | [Me] |
| 상대방 음성 | 시스템 오디오 (macOS의 화면 기록 권한 / Windows의 시스템 오디오) | [Other] |
각 오디오 청크(~0.8초)는 화자 라벨과 함께 서버로 전송되어 독립적으로 인식됩니다. 결과는 오버레이 하단에서 스크롤되는 티커인 LiveTranscriptStrip에 즉시 표시됩니다.
받아쓰기 언어
인식 언어는 세션 단위로 설정됩니다.
- 클라이언트(톱니바퀴 아이콘)나 웹 대시보드에서 설정을 엽니다.
- 받아쓰기 언어 필드를 찾습니다.
- 표준 언어 코드 목록(예:
en,ru,zh,de)에서 원하는 언어를 선택합니다. - 새 세션을 시작합니다 — 해당 언어가 그 세션에 적용됩니다.
Whisper는 90개 이상의 언어를 지원합니다. 회의 참가자들이 서로 다른 언어를 사용하는 경우, Whisper는 선택된 언어 "힌트" 범위 내에서 각 청크를 자동으로 감지합니다.
📸 [스크린샷: [Me]와 [Other] 발화가 표시된 LiveTranscriptStrip 스크롤 티커]
대시보드의 전체 스크립트
세션이 종료되면 웹 대시보드의 기록 섹션에서 전체 스크립트를 확인할 수 있습니다. 다음 작업이 가능합니다.
- 화자별로 필터링하여 읽기;
- 전체 또는 일부를 복사하기;
- 분석 및 마인드맵의 기반으로 활용하기.
📸 [스크린샷: 대시보드의 세션 페이지 — 화자 라벨이 포함된 스크립트 블록]
자주 발생하는 오류
| 오류 | 원인 | 해결 방법 |
|---|---|---|
| 상대방 음성이 받아쓰기되지 않음 | 화면 기록 권한이 부여되지 않음(macOS) 또는 시스템 오디오를 사용할 수 없음(Windows) | macOS 권한 / Windows |
| 스크립트의 언어가 잘못됨 | 잘못된 받아쓰기 언어가 선택됨 | 설정에서 언어를 변경하고 세션을 다시 시작하세요 |
| 화자 간 텍스트가 섞임 | 마이크가 두 오디오 스트림을 모두 캡처함(에코) | 헤드폰을 사용하거나 스피커 볼륨을 낮추세요 |
| 연결이 약할 때 텍스트가 없음 | Whisper 응답이 도착하기 전에 WebSocket 연결이 끊김 | 연결 상태를 개선하세요. Whisperer가 자동으로 재연결합니다 |
모범 사례
- 헤드폰을 사용하세요 — 음향 에코를 제거하고 화자 분리를 개선합니다.
- 세션 시작 전에 올바른 언어를 선택하세요 — 녹음 중에 언어를 변경하면 새 세션이 생성됩니다.
- 이중 언어 통화에서는 상대방의 언어를 선택할 수 있습니다. 컨텍스트 힌트 덕분에 Whisper는 사용자의 음성도 여전히 인식합니다.