실시간 전사

개요

실시간 전사는 통화 내용을 실시간으로 받아 적은 스크립트입니다. Whisperer는 두 개의 독립된 스트림 — 마이크(내 음성)와 시스템 오디오(상대방 음성) — 을 통해 오디오를 청취하고 음성을 인식하여 발화를 화자별로 즉시 태그합니다: [Me][Other]. 텍스트는 오버레이(LiveTranscriptStrip)에서 스크롤되며 AI 제안의 컨텍스트로 사용됩니다.

인식은 Whisper 모델을 통해 실시간으로 진행됩니다. 전사는 스트리밍 전용(실시간)입니다: 오디오는 녹음되는 대로 짧은 청크 단위로 인식을 위해 전송됩니다. 완성된 오디오 파일을 업로드하여 일괄 전사하는 방식은 없습니다 — Whisperer는 라이브 통화를 위해 만들어졌으며, 녹음물의 후처리를 위한 것이 아닙니다.

사용 시점

  • 모든 화상 통화. Whisperer는 Zoom, Google Meet, Microsoft Teams, Telegram, Discord를 비롯한 모든 서비스 위에서 오버레이로 작동합니다 — 별도의 통합이 필요하지 않습니다.
  • 면접(행동 면접 및 System Design) — 질문이 어떻게 표현되는지 놓쳐서는 안 되는 상황에 유용합니다.
  • 강의, 과외, 영업 — 양측의 발언을 정확하게 받아 적어야 할 때.
  • 다국어 통화 — Whisper는 수십 개 언어를 이해하며, 인식 언어는 세션별로 설정됩니다.

단계별 안내

  1. 권한 부여. macOS에서는 두 스트림에 두 가지 권한이 필요합니다: "마이크"(내 음성)와 "화면 기록"(상대방의 시스템 오디오); "화면 기록" 권한이 없으면 상대방 소리가 들리지 않습니다. macOS 권한을 참고하세요. Windows에서는 시스템 오디오가 별도 권한 없이 캡처되므로 마이크 접근 권한만 필요합니다; Windows 권한을 참고하세요.
  2. 전사 언어 선택. 세션 설정에서 사용하는 언어를 지정합니다. 기본값은 ru입니다. Whisper는 다국어를 지원하므로 영어 면접의 경우 en을 설정하고, 혼합 통화의 경우 통화의 주요 언어를 사용하세요.
  3. 오버레이를 열고 재생을 누릅니다. CommandBar에 볼륨 표시기(파형)가 나타나며 — 오디오가 들어오고 있음을 확인해 줍니다.
  4. 말하고 들으세요. 내 발언은 [Me]로, 시스템 오디오의 발언은 [Other]로 태그됩니다. 스크립트는 LiveTranscriptStrip에서 실시간으로 업데이트됩니다.
  5. (선택) 번역 활성화. 오버레이 설정에서 번역이 활성화되어 있으면 스크립트 아래에 번역 줄(TranslationStrip)이 표시됩니다.
  6. 세션 종료. 작업이 끝나면 스크립트가 기록에 저장됩니다(no-logs 모드 제외 — 제한 및 할당량 참고).

"화면 기록" 권한이 필요한 이유 (macOS)

macOS에서는 다른 앱의 오디오(Zoom/Meet에서 상대방의 음성)가 화면 기록 메커니즘을 통해 캡처됩니다 — 화면 캡처와 동일한 시스템 기능입니다. 따라서 Whisperer가 "화면 기록" 권한을 요청하는 것은 화면을 들여다보기 위해서가 아니라, 기술적으로 시스템 오디오 스트림을 얻기 위함입니다(그리고 비전 제안을 위한 스크린샷을 찍기 위함). 이 권한이 없으면 마이크만 녹음되어 — 내 소리는 들리지만 상대방 소리는 들리지 않습니다.

Windows에서는 더 간단합니다: 상대방의 시스템 오디오가 별도 권한 없이 캡처되며 — 마이크 접근 권한만으로 충분합니다. 자세한 내용은 Windows 권한에 있습니다.

스크린샷

📸 [스크린샷: 스크롤되는 스크립트와 [Me]/[Other] 태그가 표시된 오버레이]

📸 [스크린샷: 세션 설정에서 전사 언어 선택]

📸 [스크린샷: CommandBar의 볼륨 표시기(파형)]

흔한 실수

  • 상대방 소리가 들리지 않고 스크립트에 [Me]만 표시됨. "화면 기록" 권한이 부여되지 않았습니다. 시스템 설정 → 개인정보 보호 및 보안 → 화면 기록을 열어 Whisperer를 활성화한 다음 클라이언트를 재시작하세요.
  • 스크립트가 잘못된 언어로 표시되거나 인식 오류가 많음. 전사 언어가 잘못 설정되었습니다. 시작하기 전에 세션 언어를 실제 대화 언어로 변경하세요.
  • 볼륨 표시기가 없음. 입력 장치가 선택되지 않았거나 마이크 접근 권한이 부여되지 않았습니다 — 개인정보 설정에서 "마이크"를 확인하세요.
  • 녹음 파일 업로드를 기다림. 완성된 파일의 일괄 전사는 없습니다 — 전사는 세션 중에 실시간으로만 작동합니다.

모범 사례

  • 중요한 회의 전에 동료와 테스트 통화를 진행하여 상대방이 스크립트에 [Other]로 표시되는지 확인하세요.
  • 시끄러운 공간에서는 오버레이 설정에서 노이즈 억제를 활성화하세요 — Whisper의 정확도가 향상됩니다.
  • 언어가 혼합된 통화의 경우 대부분의 시간 동안 사용되는 언어를 선택하세요; Whisper는 언어 전환을 처리하지만 기본 언어를 명시적으로 설정하는 편이 좋습니다.
  • 내용이 민감한 경우 no-logs 모드를 사용하세요 — 스크립트가 데이터베이스에 저장되지 않습니다(다만 사용 시간은 여전히 소모됩니다).
  • 명확한 발음을 유지하고 동시에 말하는 것을 피하세요 — 발화가 분리되어 있을수록 화자별 태그가 더 정확합니다.

관련 문서