Sarvam AI Bulbul V3: भारतीय भाषाओं का नया AI वॉइस मॉडल, जेमिनी–ChatGPT को टक्कर
सर्वम एआई ने बुलबुल वी3 लॉन्च किया, एक भारतीय टेक्स्ट-टू-स्पीच मॉडल जो 11 भाषाओं में नेचुरल वॉइस, वॉइस क्लोनिंग और रियल-टाइम स्ट्रीमिंग सपोर्ट देता है।
टेक डेस्क: बेंगलुरु स्थित स्टार्टअप सर्वम एआई (Sarvam AI) ने हाल ही में अपना नया वॉइस मॉडल “Bulbul V3” लॉन्च किया है, जो भारतीय भाषाओं के वॉइस सिंथेसिस में उच्च गुणवत्ता और प्राकृतिक लगने वाली आवाजों के साथ गूगल के जेमिनी और ओपनऐआई के चैटजीपीटी जैसे ग्लोबल मॉडल्स को टक्कर दे रहा है। यह मॉडल मूल रूप से भारतीय भाषाओं, लोकल उच्चारण, कोड‑मिक्सिंग (हिंदी–इंग्लिश या किसी और भाषा का मिश्रण) और रियल‑वर्ल्ड कॉल‑सेंटर, हेल्थ, फाइनेंस और एजुकेशन जैसे उपयोग के लिए बनाया गया है, न कि सिर्फ खुले–खुले टेक्स्ट को बोलने के लिए।
Bulbul V3 क्या है और कैसे काम करता है?
Bulbul V3 एक टेक्स्ट‑टू‑स्पीच (TTS) एआई मॉडल है, जो लिखे हुए टेक्स्ट को ऐसी आवाज में बदलता है जिसे सुनकर लगे कि कोई वास्तविक इंसान बोल रहा है। इस मॉडल में एक बड़े लैंग्वेज मॉडल का इस्तेमाल किया गया है, जो टेक्स्ट को समझकर पॉज़, एम्फेसिस, पेसिंग, टोन मॉड्यूलेशन आदि को पचाता है और उसी हिसाब से आवाज को नेचुरल रूप से रंजित करता है। इस वजह से यह चपटी–सपाट “रोबोट आवाज” के बजाय उसी तरह की गतिशील, भाव–पूर्ण आवाज पैदा करता है जैसे भारत में आमतौर पर बात‑चीत होती है।
11 भारतीय भाषाएँ और भविष्य में 22 तक का सपोर्ट

जेमिनी और चैटजीपीटी की तुलना में क्यों अलग ?
सर्वम एआई ने बताया कि Bulbul V3 का मूल फोकस “रियल‑वर्ल्ड इंडियन स्पीच” पर है, जिसमें लोग अक्सर एक ही वाक्य में दो‑तीन भाषाएँ मिला देते हैं, नाम–उपनाम, शॉर्टकट्स, नंबर, URL या रोमनाइज़्ड टेक्स्ट दे देते हैं। कंपनी के मुताबिक, ब्लाइंड A/B सुनवाई टेस्ट में इस मॉडल ने 8 kHz टेलीफोनी‑ग्रेड ऑडियो में दूसरे प्रतियोगी मॉडल्स को पीछे छोड़ दिया, यानी वो उन सभी सेटिंग्स में भी बेहतर परफॉर्म करता है जहाँ नेटवर्क या ऑडियो क्वालिटी कमज़ोर हो। प्रत्येक वॉइस में रिड्यूस्ड वर्ड स्किप और मिसप्रोनंसिएशन के साथ‑साथ अधिक स्थिर प्रोसोडी (टोन, गति, जोर) की बात भी की जाती है, जो वॉइस‑बेस्ड इंटरैक्टिव सर्विसेज के लिए खासी अहम है।
वॉयस क्लोनिंग, रियल‑टाइम स्ट्रीमिंग और ऐप्लिकेशन्स
Bulbul V3 में यूज़र्स कस्टम वॉइस क्लोनिंग जैसी सुविधा भी दी जा रही है, यानी ब्रांड या कंपनी अपना खास वॉइस आइडेंटिटी बना सकती है जो ऑडियो कॉलर, IVR, ऑडियो कंटेंट या ऐप्स में पूरी तरह कस्टमाइज़ किया जा सकता है, लेकिन साथ ही आवाज की प्राकृतिक क्वालिटी बनी रहे। टेक साइटों की रिपोर्ट्स में यह बात भी कही गई है कि यह मॉडल लो‑लैटेंसी स्ट्रीमिंग मोड में काम करता है, यानी टेक्स्ट आते ही आवाज तुरंत प्ले हो सकती है, जिससे किसी वॉइस एजेंट, कंसल्टेंट या ट्यूटर के लिए लाइव–स्टाइल बातचीत जैसा फील मिलता है। इसके चलते एंटरप्राइज लेवल ऐप्स कॉल‑सेंटर, बैंकिंग, राज्य सरकारें, स्कूल–कॉलेज या ग्रामीण इलाकों में हेल्थ‑राइजड मैसेजिंग जैसे कामों में इसका इस्तेमाल तेज़ी से बढ़ सकता है।
भारतीय भाषाओं के लिए नया मानक बनने की उम्मीद
सर्वम के दावों के मुताबिक, Bulbul V3 भारतीय भाषाओं में टेक्स्ट‑टू‑स्पीच के लिए नई बेंचमार्क खड़ी कर रहा है, खासकर उन सेक्टर्स में जहाँ आवाज के जरिए सीधा संवाद ज़रूरी है। कई मीडिया रिपोर्ट्स ने भी टिप्पणी की है कि जब गूगल जेमिनी और चैटजीपीटी जैसी मोडल्स ग्लोबल स्कोप के लिए डिज़ाइन की गई हैं, तो Bulbul V3 और सर्वम के दूसरे टूल्स ने भारत‑स्पेसिफिक टास्क जैसे OCR, डॉक्यूमेंट रीडिंग और वॉइस व्हील पर बेहतर परफॉर्म किया है। इसका मतलब यह है कि आने वाले सालों में भारतीय टेक्स्ट‑टू‑स्पीच और वॉइस‑आधारित सर्विसेज में सर्वम AI की भूमिका बहुत केंद्रीय हो सकती है, और इससे डिजिटल हिंदी, बंगाली, तमिल, तेलुगु, गुजराती आदि की ऑडियो वर्जन बहुत ज्यादा असली–सी और पेशेवर लगने वाली होंगी।
Related Posts
Thank you for voting! Results will be shown after the poll ends.
Thank you for voting! Results will be shown after the poll ends.
