OpenAI का रियलटाइम API और GPT-Realtime मॉडल: आवाज़ AI में क्रांति

19:16, 29 अगस्त

द्वारा संपादित: Veronika Radoslavskaya

The Realtime API is officially out of beta and ready for your production voice agents! We’re also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities: 🔌 Remote MCPs 🖼️ Image input 📞 SIP phone calling ♻️ Reusable prompts

Watch on X

5:53 PM · Aug 28, 2025

2.5K

Read 226 replies

Watch on X

OpenAI ने अपने रियलटाइम API को सामान्य उपलब्धता में जारी कर दिया है और GPT-Realtime मॉडल पेश किया है, जो आवाज़ AI (Voice AI) के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है। यह विकास डेवलपर्स और उद्यमों के लिए अधिक स्वाभाविक और कुशल संवादात्मक अनुभव बनाने के रास्ते खोलता है।

GPT-Realtime, OpenAI का सबसे उन्नत स्पीच-टू-स्पीच मॉडल है, जो सीधे ऑडियो को प्रोसेस और जेनरेट करता है। यह पारंपरिक स्पीच-टू-टेक्स्ट-टू-स्पीच रूपांतरण की जटिल प्रक्रिया को समाप्त करता है, जिससे प्रतिक्रिया समय में काफी कमी आती है और बातचीत अधिक स्वाभाविक लगती है। यह मॉडल न केवल शब्दों को समझता है, बल्कि आवाज़ के लहजे, भावना और गति को भी समझता है, जिससे यह ग्राहक सहायता, व्यक्तिगत सहायता और शिक्षा जैसे क्षेत्रों में अत्यधिक उपयोगी हो जाता है। GPT-Realtime मध्य-वाक्य में भाषा बदलने, गैर-मौखिक संकेतों को समझने और लहजे को समायोजित करने में भी सक्षम है।

रियलटाइम API में अब WebRTC समर्थन, छवि इनपुट (दृश्य विश्लेषण के लिए), और सेशन इनिशिएशन प्रोटोकॉल (SIP) के माध्यम से फोन कॉलिंग एकीकरण जैसी नई सुविधाएँ शामिल हैं। ये क्षमताएँ डेवलपर्स को मौजूदा संचार बुनियादी ढांचे में AI को सहजता से एकीकृत करने में मदद करती हैं। उदाहरण के लिए, T-Mobile के साथ OpenAI के सहयोग से एक AI-सहायता प्राप्त फोन अपग्रेड प्रक्रिया को सुव्यवस्थित किया गया है, जिससे ग्राहक अनुभव बेहतर हुआ है।

प्रदर्शन के मामले में, GPT-Realtime ने बिग बेंच ऑडियो मूल्यांकन में 82.8% सटीकता हासिल की है, जो इसके पिछले मॉडल की तुलना में एक महत्वपूर्ण सुधार है। यह मॉडल जटिल निर्देशों का पालन करने और फंक्शन कॉलिंग में भी बेहतर प्रदर्शन करता है। OpenAI ने दो नई आवाज़ें, मैरिन और सीडर, भी पेश की हैं, जो अधिक स्वाभाविक और अभिव्यंजक भाषण प्रदान करती हैं। लागत के मोर्चे पर, रियलटाइम API की कीमत पिछले स्तरों की तुलना में 20% कम कर दी गई है, जिससे यह अधिक सुलभ हो गया है। नए दरों के अनुसार, ऑडियो इनपुट टोकन के लिए $32 प्रति मिलियन और ऑडियो आउटपुट टोकन के लिए $64 प्रति मिलियन है।

यह प्रगति आवाज़ AI के बढ़ते महत्व को दर्शाती है, जो ग्राहक सेवा, दूरसंचार और अन्य उद्योगों में क्रांति ला रही है। GPT-Realtime के साथ, OpenAI डेवलपर्स को ऐसे अभिनव आवाज़-सक्षम एप्लिकेशन बनाने के लिए सशक्त बना रहा है जो उपयोगकर्ता अनुभव को बढ़ाते हैं और संचालन को सुव्यवस्थित करते हैं। यह विकास AI को हमारे दैनिक जीवन में और अधिक एकीकृत करने की दिशा में एक महत्वपूर्ण कदम है, जिससे मशीनें अधिक मानवीय और सहज तरीके से संवाद कर सकेंगी।

28 दृश्य

स्रोतों

WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

इस विषय पर अधिक लेख पढ़ें:

09 अप्रैल

AI स्टाइल एडिटर के कारण Grammarly पर 'पब्लिसिटी राइट्स' के उल्लंघन का मुकदमा

06 अप्रैल

माइक्रोसॉफ्ट ने OpenAI और Google को चुनौती देने के लिए तीन मालिकाना AI मॉडल लॉन्च किए

06 अप्रैल

माइक्रोसॉफ्ट और गूगल ने एआई आपूर्ति के लिए एसके हाइनिक्स के साथ बहु-वर्षीय समझौते किए

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।