FlashLabs ने Chroma 1.0 का अनावरण किया: ओपन-सोर्स रियल-टाइम वॉयस एआई में एक ऐतिहासिक उपलब्धि

द्वारा संपादित: Veronika Radoslavskaya

एप्लाइड एआई रिसर्च लैब FlashLabs ने हाल ही में Chroma 1.0 के अनावरण की घोषणा की है, जो कृत्रिम बुद्धिमत्ता के साथ मानवीय संवाद के भविष्य में एक क्रांतिकारी मोड़ है। यह मॉडल दुनिया का पहला ओपन-सोर्स, एंड-टू-एंड (E2E) स्पीच-टू-स्पीच सिस्टम है, जिसे विशेष रूप से 'मानवीय गति' पर काम करने के लिए डिज़ाइन किया गया है। पारंपरिक वॉयस प्रणालियों में अक्सर संवाद के दौरान एक कृत्रिम ठहराव महसूस होता है, लेकिन Chroma 1.0 उन तकनीकी बाधाओं को दूर करता है जो अब तक सहज बातचीत में बाधक रही हैं।

इस मॉडल की सबसे बड़ी विशेषता इसकी वाक् वास्तुकला (Native Speech Architecture) है। वर्तमान में उपयोग किए जाने वाले अधिकांश वॉयस असिस्टेंट एक जटिल और धीमी प्रक्रिया का पालन करते हैं, जिसमें पहले आवाज़ को टेक्स्ट में बदला जाता है (ASR), फिर उसे लैंग्वेज मॉडल (LLM) के साथ प्रोसेस किया जाता है, और अंत में फिर से आवाज़ में बदला जाता है (TTS)। इस पुरानी पद्धति के कारण उपयोगकर्ता और मशीन के बीच एक स्पष्ट अंतराल या 'लेटेंसी' पैदा होती है। Chroma 1.0 इस पूरी प्रक्रिया को सीधे वॉयस मोड में संचालित करके बदल देता है, जिससे इसका 'टाइम टू फर्स्ट टोकन' (TTFT) 150ms से भी कम हो जाता है।

यह तीव्र प्रतिक्रिया समय न केवल बातचीत को तेज़ बनाता है, बल्कि इसे अधिक स्वाभाविक भी बनाता है। 150ms से कम की लेटेंसी का अर्थ है कि एआई अब बातचीत के बीच में होने वाले हस्तक्षेपों या टोका-टाकी पर तुरंत प्रतिक्रिया दे सकता है। यह मानवीय भाषण की लय, स्वर और उतार-चढ़ाव (prosody) को पूरी सटीकता के साथ बनाए रखता है, जिससे ऐसा महसूस होता है कि आप किसी मशीन से नहीं बल्कि एक जीवित व्यक्ति से बात कर रहे हैं। यह तकनीक संवाद में आने वाली भावनात्मक बारीकियों को भी समझने और व्यक्त करने में सक्षम है।

वॉयस क्लोनिंग के क्षेत्र में भी Chroma 1.0 ने नए मानक स्थापित किए हैं। इस मॉडल को किसी व्यक्ति की आवाज़ की नकल करने के लिए केवल कुछ सेकंड के ऑडियो सैंपल की आवश्यकता होती है। आंतरिक परीक्षणों में, इस मॉडल ने 0.817 का स्पीकर सिमिलरिटी स्कोर (SIM) हासिल किया है, जो FlashLabs के अनुसार मानवीय पहचान क्षमता की आधार रेखा से लगभग 11% अधिक है। इसका तात्पर्य यह है कि अब बिना किसी बड़े डेटासेट या हफ्तों की ट्रेनिंग के, किसी भी विशिष्ट आवाज़ का एक अत्यधिक सटीक डिजिटल संस्करण तैयार किया जा सकता है।

दक्षता के मामले में, Chroma 1.0 को लगभग 4 बिलियन मापदंडों (parameters) के एक सुव्यवस्थित और कॉम्पैक्ट आर्किटेक्चर पर विकसित किया गया है। इतनी कम क्षमता के बावजूद, इसकी तर्क शक्ति और समझने की क्षमता अत्यंत प्रभावशाली है। इस छोटे आकार के कारण, इसे विभिन्न प्रकार के हार्डवेयर और वातावरण में आसानी से तैनात किया जा सकता है। यह मॉडल विशेष रूप से उन स्थितियों के लिए उपयोगी है जहाँ डेटा गोपनीयता और कम लेटेंसी सबसे महत्वपूर्ण आवश्यकताएं होती हैं।

इस मॉडल के संभावित अनुप्रयोग अत्यंत व्यापक और विविध हैं, जो विभिन्न उद्योगों में बदलाव ला सकते हैं:

  • स्वायत्त वॉयस एजेंट: ऐसे डिजिटल सहायकों का निर्माण जो व्यक्तिगत और व्यावसायिक कार्यों में मानवीय तत्परता के साथ सहायता कर सकें।
  • एज डिप्लॉयमेंट: क्लाउड पर निर्भर रहने के बजाय सीधे स्थानीय उपकरणों पर एआई को चलाना, जिससे डेटा सुरक्षा सुनिश्चित होती है।
  • इंटरैक्टिव NPCs: गेमिंग की दुनिया में ऐसे पात्रों को विकसित करना जो खिलाड़ियों के साथ बिना किसी पूर्व-निर्धारित स्क्रिप्ट के वास्तविक समय में बातचीत कर सकें।
  • रियल-टाइम ट्रांसलेशन: ऐसी अनुवाद प्रणालियाँ बनाना जो दो अलग-अलग भाषाएं बोलने वाले लोगों के बीच बिना किसी देरी के सेतु का काम कर सकें।

FlashLabs ने एक साहसिक कदम उठाते हुए Chroma 1.0 को ओपन-सोर्स के रूप में पेश किया है। इसके मॉडल वेट Hugging Face पर उपलब्ध कराए गए हैं और इसका इन्फरेंस कोड GitHub पर साझा किया गया है। इस पारदर्शी दृष्टिकोण का मुख्य उद्देश्य वैश्विक स्तर पर शोधकर्ताओं और डेवलपर्स को एक ऐसा मंच प्रदान करना है, जहाँ वे इस तकनीक को और अधिक उन्नत बना सकें। यह पहल 'एजेंटिक' प्रणालियों के एक नए युग की शुरुआत है, जहाँ एआई और इंसान एक ही गति और सहजता के साथ संवाद कर सकेंगे।

41 दृश्य

स्रोतों

  • IT News Online

  • PR Newswire

  • MarkTechPost

  • GitHub

  • Hugging Face

  • FlashIntel | Forbes Technology Council

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।