OpenAI ने अपने रियलटाइम API को सामान्य उपलब्धता में जारी कर दिया है और GPT-Realtime मॉडल पेश किया है, जो आवाज़ AI (Voice AI) के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है। यह विकास डेवलपर्स और उद्यमों के लिए अधिक स्वाभाविक और कुशल संवादात्मक अनुभव बनाने के रास्ते खोलता है।
GPT-Realtime, OpenAI का सबसे उन्नत स्पीच-टू-स्पीच मॉडल है, जो सीधे ऑडियो को प्रोसेस और जेनरेट करता है। यह पारंपरिक स्पीच-टू-टेक्स्ट-टू-स्पीच रूपांतरण की जटिल प्रक्रिया को समाप्त करता है, जिससे प्रतिक्रिया समय में काफी कमी आती है और बातचीत अधिक स्वाभाविक लगती है। यह मॉडल न केवल शब्दों को समझता है, बल्कि आवाज़ के लहजे, भावना और गति को भी समझता है, जिससे यह ग्राहक सहायता, व्यक्तिगत सहायता और शिक्षा जैसे क्षेत्रों में अत्यधिक उपयोगी हो जाता है। GPT-Realtime मध्य-वाक्य में भाषा बदलने, गैर-मौखिक संकेतों को समझने और लहजे को समायोजित करने में भी सक्षम है।
रियलटाइम API में अब WebRTC समर्थन, छवि इनपुट (दृश्य विश्लेषण के लिए), और सेशन इनिशिएशन प्रोटोकॉल (SIP) के माध्यम से फोन कॉलिंग एकीकरण जैसी नई सुविधाएँ शामिल हैं। ये क्षमताएँ डेवलपर्स को मौजूदा संचार बुनियादी ढांचे में AI को सहजता से एकीकृत करने में मदद करती हैं। उदाहरण के लिए, T-Mobile के साथ OpenAI के सहयोग से एक AI-सहायता प्राप्त फोन अपग्रेड प्रक्रिया को सुव्यवस्थित किया गया है, जिससे ग्राहक अनुभव बेहतर हुआ है।
प्रदर्शन के मामले में, GPT-Realtime ने बिग बेंच ऑडियो मूल्यांकन में 82.8% सटीकता हासिल की है, जो इसके पिछले मॉडल की तुलना में एक महत्वपूर्ण सुधार है। यह मॉडल जटिल निर्देशों का पालन करने और फंक्शन कॉलिंग में भी बेहतर प्रदर्शन करता है। OpenAI ने दो नई आवाज़ें, मैरिन और सीडर, भी पेश की हैं, जो अधिक स्वाभाविक और अभिव्यंजक भाषण प्रदान करती हैं। लागत के मोर्चे पर, रियलटाइम API की कीमत पिछले स्तरों की तुलना में 20% कम कर दी गई है, जिससे यह अधिक सुलभ हो गया है। नए दरों के अनुसार, ऑडियो इनपुट टोकन के लिए $32 प्रति मिलियन और ऑडियो आउटपुट टोकन के लिए $64 प्रति मिलियन है।
यह प्रगति आवाज़ AI के बढ़ते महत्व को दर्शाती है, जो ग्राहक सेवा, दूरसंचार और अन्य उद्योगों में क्रांति ला रही है। GPT-Realtime के साथ, OpenAI डेवलपर्स को ऐसे अभिनव आवाज़-सक्षम एप्लिकेशन बनाने के लिए सशक्त बना रहा है जो उपयोगकर्ता अनुभव को बढ़ाते हैं और संचालन को सुव्यवस्थित करते हैं। यह विकास AI को हमारे दैनिक जीवन में और अधिक एकीकृत करने की दिशा में एक महत्वपूर्ण कदम है, जिससे मशीनें अधिक मानवीय और सहज तरीके से संवाद कर सकेंगी।