Sarvam AI Bulbul V3: भारतीय भाषाओं का नया AI वॉइस मॉडल, जेमिनी–ChatGPT को टक्कर

Sarvam AI Bulbul V3: भारतीय भाषाओं का नया AI वॉइस मॉडल, जेमिनी–ChatGPT को टक्कर
(एडिटेड इमेज)

सर्वम एआई ने बुलबुल वी3 लॉन्च किया, एक भारतीय टेक्स्ट-टू-स्पीच मॉडल जो 11 भाषाओं में नेचुरल वॉइस, वॉइस क्लोनिंग और रियल-टाइम स्ट्रीमिंग सपोर्ट देता है।

टेक डेस्क: बेंगलुरु स्थित स्टार्टअप सर्वम एआई (Sarvam AI) ने हाल ही में अपना नया वॉइस मॉडल “Bulbul V3” लॉन्च किया है, जो भारतीय भाषाओं के वॉइस सिंथेसिस में उच्च गुणवत्ता और प्राकृतिक लगने वाली आवाजों के साथ गूगल के जेमिनी और ओपनऐआई के चैटजीपीटी जैसे ग्लोबल मॉडल्स को टक्कर दे रहा है। यह मॉडल मूल रूप से भारतीय भाषाओं, लोकल उच्चारण, कोड‑मिक्सिंग (हिंदी–इंग्लिश या किसी और भाषा का मिश्रण) और रियल‑वर्ल्ड कॉल‑सेंटर, हेल्थ, फाइनेंस और एजुकेशन जैसे उपयोग के लिए बनाया गया है, न कि सिर्फ खुले–खुले टेक्स्ट को बोलने के लिए।

Bulbul V3 क्या है और कैसे काम करता है?

Bulbul V3 एक टेक्स्ट‑टू‑स्पीच (TTS) एआई मॉडल है, जो लिखे हुए टेक्स्ट को ऐसी आवाज में बदलता है जिसे सुनकर लगे कि कोई वास्तविक इंसान बोल रहा है। इस मॉडल में एक बड़े लैंग्वेज मॉडल का इस्तेमाल किया गया है, जो टेक्स्ट को समझकर पॉज़, एम्फेसिस, पेसिंग, टोन मॉड्यूलेशन आदि को पचाता है और उसी हिसाब से आवाज को नेचुरल रूप से रंजित करता है। इस वजह से यह चपटी–सपाट “रोबोट आवाज” के बजाय उसी तरह की गतिशील, भाव–पूर्ण आवाज पैदा करता है जैसे भारत में आमतौर पर बात‑चीत होती है।

11 भारतीय भाषाएँ और भविष्य में 22 तक का सपोर्ट

सर्वम के अनुसार, Bulbul V3 को करीब 35 से ज़्यादा हाई‑क्वालिटी वॉइस के साथ लॉन्च किया गया है, जो सभी प्रोफेशनल भारतीय वॉइस आर्टिस्ट्स से रिकॉर्ड किए गए सैंपल पर ट्रेन हुए हैं, न कि किसी एक की जगह हर तरह की आवाज रैंडम जेनरेट हो। यह मॉडल अभी 11 भारतीय भाषाओं में तेज़, स्थिर और कम एरर वाला प्रदर्शन देता है और कंपनी की योजना है कि आगे चलकर भारत की संविधान की अनुसूचित सभी 22 भाषाओं का सपोर्ट कवर किया जाए। इसका मतलब यह है कि एक ही मॉडल पर ही अलग‑अलग जिलों के अपने‑अपने उच्चारण और लोकल फील के साथ लोग अपनी ज़बान में बात कर सकेंगे।

जेमिनी और चैटजीपीटी की तुलना में क्यों अलग ?

सर्वम एआई ने बताया कि Bulbul V3 का मूल फोकस “रियल‑वर्ल्ड इंडियन स्पीच” पर है, जिसमें लोग अक्सर एक ही वाक्य में दो‑तीन भाषाएँ मिला देते हैं, नाम–उपनाम, शॉर्टकट्स, नंबर, URL या रोमनाइज़्ड टेक्स्ट दे देते हैं। कंपनी के मुताबिक, ब्लाइंड A/B सुनवाई टेस्ट में इस मॉडल ने 8 kHz टेलीफोनी‑ग्रेड ऑडियो में दूसरे प्रतियोगी मॉडल्स को पीछे छोड़ दिया, यानी वो उन सभी सेटिंग्स में भी बेहतर परफॉर्म करता है जहाँ नेटवर्क या ऑडियो क्वालिटी कमज़ोर हो। प्रत्येक वॉइस में रिड्यूस्ड वर्ड स्किप और मिसप्रोनंसिएशन के साथ‑साथ अधिक स्थिर प्रोसोडी (टोन, गति, जोर) की बात भी की जाती है, जो वॉइस‑बेस्ड इंटरैक्टिव सर्विसेज के लिए खासी अहम है।

यह भी पढ़ें झारखंड बदल रहा है, वैश्विक मंच पर पहुंचाने का काम किया : हेमन्त सोरेन

वॉयस क्लोनिंग, रियल‑टाइम स्ट्रीमिंग और ऐप्लिकेशन्स

Bulbul V3 में यूज़र्स कस्टम वॉइस क्लोनिंग जैसी सुविधा भी दी जा रही है, यानी ब्रांड या कंपनी अपना खास वॉइस आइडेंटिटी बना सकती है जो ऑडियो कॉलर, IVR, ऑडियो कंटेंट या ऐप्स में पूरी तरह कस्टमाइज़ किया जा सकता है, लेकिन साथ ही आवाज की प्राकृतिक क्वालिटी बनी रहे। टेक साइटों की रिपोर्ट्स में यह बात भी कही गई है कि यह मॉडल लो‑लैटेंसी स्ट्रीमिंग मोड में काम करता है, यानी टेक्स्ट आते ही आवाज तुरंत प्ले हो सकती है, जिससे किसी वॉइस एजेंट, कंसल्टेंट या ट्यूटर के लिए लाइव–स्टाइल बातचीत जैसा फील मिलता है। इसके चलते एंटरप्राइज लेवल ऐप्स कॉल‑सेंटर, बैंकिंग, राज्य सरकारें, स्कूल–कॉलेज या ग्रामीण इलाकों में हेल्थ‌‑राइजड मैसेजिंग जैसे कामों में इसका इस्तेमाल तेज़ी से बढ़ सकता है।

यह भी पढ़ें ऊर्जा सुरक्षा पर भारत का जोर, वेनेजुएला समेत नए विकल्पों पर विचार

भारतीय भाषाओं के लिए नया मानक बनने की उम्मीद

सर्वम के दावों के मुताबिक, Bulbul V3 भारतीय भाषाओं में टेक्स्ट‑टू‑स्पीच के लिए नई बेंचमार्क खड़ी कर रहा है, खासकर उन सेक्टर्स में जहाँ आवाज के जरिए सीधा संवाद ज़रूरी है। कई मीडिया रिपोर्ट्स ने भी टिप्पणी की है कि जब गूगल जेमिनी और चैटजीपीटी जैसी मोडल्स ग्लोबल स्कोप के लिए डिज़ाइन की गई हैं, तो Bulbul V3 और सर्वम के दूसरे टूल्स ने भारत‑स्पेसिफिक टास्क जैसे OCR, डॉक्यूमेंट रीडिंग और वॉइस व्हील पर बेहतर परफॉर्म किया है। इसका मतलब यह है कि आने वाले सालों में भारतीय टेक्स्ट‑टू‑स्पीच और वॉइस‑आधारित सर्विसेज में सर्वम AI की भूमिका बहुत केंद्रीय हो सकती है, और इससे डिजिटल हिंदी, बंगाली, तमिल, तेलुगु, गुजराती आदि की ऑडियो वर्जन बहुत ज्यादा असली–सी और पेशेवर लगने वाली होंगी।

यह भी पढ़ें गोमिया में हाथियों का कहर, एक परिवार के तीन सदस्यों को कुचलकर मार डाला

Edited By: Samridh Desk
Samridh Desk Picture

समृद्ध डेस्क (Samridh Desk), समृद्ध झारखंड का आधिकारिक संपादकीय विभाग है — जो निष्पक्ष, पारदर्शी और सामाजिक जागरूक पत्रकारिता के लिए समर्पित है। हम अनुभवी संपादकों, रिपोर्टरों, डिजिटल संवाददाताओं और कंटेंट राइटर्स की टीम हैं, जो सत्य और जिम्मेदारी की भावना से समाज के मुद्दों को सामने लाने का कार्य करती है।

समृद्ध डेस्क के नाम से प्रकाशित हर लेख हमारी निष्ठा, ईमानदारी और सामाजिक उत्तरदायित्व का प्रतीक है।
हम हर खबर को तथ्यों, निष्पक्षता और जनहित के दृष्टिकोण से प्रस्तुत करते हैं — ताकि पाठकों को केवल सूचना नहीं, बल्कि सच्चाई का पूरा चित्र मिले।

Latest News

Horoscope: चंद्रमा का प्रभाव, राशियों पर बदलाव: जानें आज क्या कह रहे हैं आपके सितारे Horoscope: चंद्रमा का प्रभाव, राशियों पर बदलाव: जानें आज क्या कह रहे हैं आपके सितारे
सरकारी कार्यक्रमों में वंदे मातरम के 6 छंद अनिवार्य, गृह मंत्रालय का नया आदेश
अवैध संबंध के कारण माँ ने की बेटे की हत्या, पुलिस ने किया खुलासा
120 से 300 KM/H की रफ्तार, Bullet Train और Vande Bharat पर बड़ा फैसला
साहिबगंज में 350 जरूरतमंदों का नि:शुल्क मोतियाबिंद ऑपरेशन शिविर आयोजित
33वीं चेतन देवराज ईस्ट जोन इंटर तकनीकी क्रिकेट टूर्नामेंट 2026 बी.आई.टी. मेसरा में शुरू
जाह्नवी ने बिना कोचिंग, 2 महीने में किया यूजीसी नेट क्वालिफाई
सिमडेगा नगर पालिका चुनाव 2026 को लेकर कोषांगों की बैठक सह प्रशिक्षण आयोजित
चांदी, सोना या म्यूचुअल फंड? निवेश से पहले जान लें ये 5 जरूरी नियम
वार्ड 21, 02 और 01 में गूंजा बदलाव का स्वर, तस्लीम अंसारी के समर्थन में कांग्रेस का जनसंपर्क अभियान
लोहरदगा नगरपालिका चुनाव 2026 को लेकर उपायुक्त की अध्यक्षता में कोषांगों की बैठक
सरिया सड़क हादसा: ट्रक की चपेट में आकर बाइक सवार युवक की मौत