लाइव ट्रांसक्रिप्शन
अवलोकन
लाइव ट्रांसक्रिप्शन आपके कॉल का रियल-टाइम ट्रांसक्रिप्ट है। Whisperer दो स्वतंत्र स्ट्रीम पर ऑडियो सुनता है — आपका माइक्रोफ़ोन (आपकी आवाज़) और सिस्टम ऑडियो (दूसरे व्यक्ति की आवाज़) — वाणी को पहचानता है और तुरंत उच्चारणों को वक्ता के अनुसार टैग करता है: [Me] और [Other]। टेक्स्ट ओवरले (LiveTranscriptStrip) में स्क्रॉल होता है और AI सुझावों के लिए संदर्भ के रूप में काम करता है।
पहचान रियल टाइम में Whisper मॉडल के माध्यम से चलती है। ट्रांसक्रिप्शन केवल स्ट्रीमिंग (रियल-टाइम) है: रिकॉर्डिंग के दौरान ऑडियो को छोटे-छोटे हिस्सों में पहचान के लिए भेजा जाता है। बैच ट्रांसक्रिप्शन के लिए किसी तैयार ऑडियो फ़ाइल का अपलोड नहीं होता — Whisperer को लाइव कॉल के लिए बनाया गया है, रिकॉर्डिंग के बाद-प्रसंस्करण के लिए नहीं।
कब उपयोग करें
- कोई भी वीडियो कॉल। Whisperer Zoom, Google Meet, Microsoft Teams, Telegram, Discord और किसी भी अन्य सेवा के ऊपर एक ओवरले के रूप में काम करता है — किसी अलग इंटीग्रेशन की आवश्यकता नहीं।
- इंटरव्यू (व्यवहारात्मक और System Design), जहाँ आप यह चूक नहीं सकते कि कोई प्रश्न किस तरह से पूछा गया है।
- व्याख्यान, ट्यूशन सत्र, सेल्स — जब आपको दोनों पक्षों की बातों का सटीक ट्रांसक्रिप्ट चाहिए।
- बहुभाषी कॉल — Whisper दर्जनों भाषाएँ समझता है; पहचान की भाषा प्रति सत्र निर्धारित होती है।
चरण-दर-चरण
- अनुमतियाँ दें। macOS पर, दो स्ट्रीम के लिए दो अनुमतियाँ चाहिए: "Microphone" (आपकी आवाज़) और "Screen Recording" (दूसरे व्यक्ति का सिस्टम ऑडियो); "Screen Recording" के बिना दूसरा व्यक्ति नहीं सुना जाएगा। देखें macOS अनुमतियाँ। Windows पर, सिस्टम ऑडियो किसी अतिरिक्त अनुमति के बिना कैप्चर होता है — आपको केवल माइक्रोफ़ोन एक्सेस की आवश्यकता होती है; देखें Windows अनुमतियाँ।
- ट्रांसक्रिप्शन भाषा चुनें। सत्र सेटिंग्स में, बोली जाने वाली भाषा सेट करें। डिफ़ॉल्ट
ruहै। Whisper बहुभाषी है, इसलिए अंग्रेज़ी-भाषा के इंटरव्यू के लिएenसेट करें, और मिश्रित कॉल के लिए कॉल की प्रमुख भाषा का उपयोग करें। - ओवरले खोलें और प्ले दबाएँ। CommandBar में एक वॉल्यूम इंडिकेटर (वेवफ़ॉर्म) दिखाई देता है — यह पुष्टि करता है कि ऑडियो आ रहा है।
- बोलें और सुनें। आपकी बातें
[Me]से टैग होती हैं, सिस्टम ऑडियो से आने वाली बातें[Other]से टैग होती हैं। ट्रांसक्रिप्ट LiveTranscriptStrip में रियल टाइम में अपडेट होता है। - (वैकल्पिक) अनुवाद सक्षम करें। यदि ओवरले सेटिंग्स में अनुवाद सक्षम है, तो ट्रांसक्रिप्ट के नीचे एक अनुवाद पंक्ति (TranslationStrip) दिखाई देती है।
- सत्र समाप्त करें। जब आप पूरा कर लें, तो ट्रांसक्रिप्ट इतिहास में सहेजा जाता है (no-logs मोड को छोड़कर — देखें सीमाएँ और कोटा)।
"Screen Recording" अनुमति क्यों आवश्यक है (macOS)
macOS पर, अन्य ऐप्स से ऑडियो (Zoom/Meet में दूसरे व्यक्ति की आवाज़) स्क्रीन-रिकॉर्डिंग तंत्र के माध्यम से कैप्चर होता है — वही सिस्टम सुविधा जो स्क्रीन कैप्चर के लिए है। इसलिए Whisperer "Screen Recording" अनुमति आपकी स्क्रीन देखने के लिए नहीं, बल्कि तकनीकी रूप से सिस्टम ऑडियो स्ट्रीम प्राप्त करने के लिए (और विज़न सुझावों के लिए स्क्रीनशॉट लेने के लिए) माँगता है। इस अनुमति के बिना, केवल माइक्रोफ़ोन रिकॉर्ड होता है — आप सुने जाते हैं, दूसरा व्यक्ति नहीं।
Windows पर यह आसान है: दूसरे व्यक्ति का सिस्टम ऑडियो किसी अतिरिक्त अनुमति के बिना कैप्चर होता है — माइक्रोफ़ोन एक्सेस पर्याप्त है। विवरण Windows अनुमतियाँ में हैं।
स्क्रीनशॉट
📸 [स्क्रीनशॉट: स्क्रॉल होते ट्रांसक्रिप्ट और [Me]/[Other] टैगिंग के साथ ओवरले]
📸 [स्क्रीनशॉट: सत्र सेटिंग्स में ट्रांसक्रिप्शन भाषा का चयन]
📸 [स्क्रीनशॉट: CommandBar में वॉल्यूम इंडिकेटर (वेवफ़ॉर्म)]
सामान्य गलतियाँ
- दूसरा व्यक्ति नहीं सुना जाता, ट्रांसक्रिप्ट केवल
[Me]दिखाता है। "Screen Recording" अनुमति नहीं दी गई है। System Settings → Privacy & Security → Screen Recording खोलें, Whisperer को सक्षम करें, फिर क्लाइंट को पुनः आरंभ करें। - ट्रांसक्रिप्ट गलत भाषा में है / बहुत सारी पहचान त्रुटियाँ। ट्रांसक्रिप्शन भाषा गलत सेट है। शुरू करने से पहले सत्र भाषा को बातचीत की वास्तविक भाषा में बदलें।
- कोई वॉल्यूम इंडिकेटर नहीं। कोई इनपुट डिवाइस चयनित नहीं है या माइक्रोफ़ोन एक्सेस नहीं दिया गया है — अपनी प्राइवेसी सेटिंग्स में "Microphone" जाँचें।
- रिकॉर्डिंग के अपलोड होने का इंतज़ार करना। किसी तैयार फ़ाइल का बैच ट्रांसक्रिप्शन नहीं होता — ट्रांसक्रिप्शन केवल सत्र के दौरान लाइव काम करता है।
सर्वोत्तम अभ्यास
- किसी महत्वपूर्ण मीटिंग से पहले, किसी सहकर्मी के साथ एक टेस्ट कॉल करें और पुष्टि करें कि दूसरा व्यक्ति ट्रांसक्रिप्ट में
[Other]के रूप में दिखाई देता है। - शोरगुल वाले कमरे में ओवरले सेटिंग्स में नॉइज़ सप्रेशन सक्षम करें — इससे Whisper की सटीकता बेहतर होती है।
- भाषा-मिश्रित कॉल के लिए, वह भाषा चुनें जो अधिकांश समय बोली जाती है; Whisper स्विच को संभालता है, लेकिन आधार भाषा स्पष्ट रूप से सेट करना बेहतर है।
- यदि सामग्री संवेदनशील है, तो no-logs मोड का उपयोग करें — ट्रांसक्रिप्ट डेटाबेस में नहीं सहेजा जाएगा (हालाँकि मिनट फिर भी खर्च होते हैं)।
- स्पष्ट उच्चारण रखें और एक-दूसरे के ऊपर बात करने से बचें — अलग-अलग उच्चारण वक्ता के अनुसार अधिक सटीक टैग होते हैं।