माइक्रोसॉफ्ट ने OpenAI और Google को चुनौती देने के लिए तीन मालिकाना AI मॉडल लॉन्च किए

द्वारा संपादित: Aleksandr Lytviak

गुरुवार, 2 अप्रैल, 2026 को, माइक्रोसॉफ्ट ने कृत्रिम बुद्धिमत्ता (एआई) के क्षेत्र में अपनी 'एआई आत्मनिर्भरता' की रणनीति को आगे बढ़ाते हुए, तीन नए आंतरिक रूप से विकसित फाउंडेशन मॉडल का अनावरण किया। ये मॉडल—MAI-Transcribe-1 (आवाज से पाठ), MAI-Voice-1 (आवाज निर्माण), और MAI-Image-2 (छवि निर्माण)—सीधे तौर पर OpenAI और Google जैसी अग्रणी प्रयोगशालाओं के साथ प्रतिस्पर्धा करने के लिए डिज़ाइन किए गए हैं। यह कदम मॉडल विकास में केवल वितरण पर निर्भरता से हटकर एक महत्वपूर्ण रणनीतिक बदलाव को दर्शाता है।

माइक्रोसॉफ्ट के एआई प्रमुख और गूगल डीपमाइंड के सह-संस्थापक, मुस्तफा सुलेमान के नेतृत्व में, सुपरइंटेलिजेंस टीम द्वारा विकसित इन मॉडलों का उद्देश्य उद्यम एआई के तीन व्यावसायिक रूप से मूल्यवान क्षेत्रों को कवर करना है। यह घोषणा ऐसे समय में हुई है जब कंपनी के शेयर 2008 के वित्तीय संकट के बाद से अपने सबसे खराब तिमाही के करीब बंद हुए थे, जिससे निवेशकों को एआई बुनियादी ढांचे पर अरबों डॉलर के खर्च को राजस्व में बदलने का प्रमाण चाहिए। सुलेमान ने संकेत दिया है कि माइक्रोसॉफ्ट का लक्ष्य "मानववादी एआई" का निर्माण करना है, जो मानव नियंत्रण में रहे, और उन्होंने 12 से 18 महीनों के भीतर ज्ञान कार्य के महत्वपूर्ण हिस्सों के स्वचालन का सुझाव दिया है।

MAI-Transcribe-1 ने विशेष रूप से ध्यान आकर्षित किया है, क्योंकि माइक्रोसॉफ्ट का दावा है कि यह 25 प्रमुख भाषाओं में सटीकता का एक नया मानक स्थापित करता है। यह मॉडल FLEURS बेंचमार्क पर 3.8% की औसत शब्द त्रुटि दर (WER) हासिल करता है, जो OpenAI के Whisper-large-v3 को सभी 25 भाषाओं में बेहतर प्रदर्शन करता है और Google के Gemini 3.1 Flash को 25 में से 22 भाषाओं में मात देता है। माइक्रोसॉफ्ट ने यह भी बताया कि यह मॉडल मौजूदा Azure Fast पेशकश की तुलना में बैच ट्रांसक्रिप्शन गति में 2.5 गुना तेज है और इसकी कीमत $0.36 प्रति घंटे है, जो इसे बड़े क्लाउड प्रदाताओं के बीच मूल्य-प्रदर्शन में अग्रणी बनाता है। हालाँकि, वर्तमान में MAI-Transcribe-1 में डायराइज़ेशन (विभिन्न वक्ताओं को अलग करने की क्षमता) या वास्तविक समय ट्रांसक्रिप्शन का समर्थन नहीं है, हालांकि ये सुविधाएँ विकास में हैं।

आवाज और छवि क्षमताओं में भी महत्वपूर्ण प्रगति हुई है। MAI-Voice-1 केवल एक सेकंड में 60 सेकंड तक का ऑडियो उत्पन्न कर सकता है और यह केवल कुछ ऑडियो नमूनों से कस्टम आवाज़ें बनाने की क्षमता रखता है, जिसकी कीमत $22 प्रति मिलियन वर्ण निर्धारित की गई है। दूसरी ओर, MAI-Image-2, जो माइक्रोसॉफ्ट की छवि निर्माण क्षमताओं को बढ़ाता है, अपने पूर्ववर्ती की तुलना में दोगुनी गति प्रदान करता है और Arena.ai टेक्स्ट-टू-इमेज लीडरबोर्ड पर शीर्ष तीन में स्थान रखता है। छवि मॉडल के लिए इनपुट टोकन की कीमत $5 प्रति मिलियन और छवि आउटपुट के लिए $33 प्रति मिलियन है, जो Google के प्रतिस्पर्धी मॉडल की तुलना में काफी कम है।

इन तकनीकी सफलताओं के साथ-साथ, माइक्रोसॉफ्ट को उपभोक्ता Copilot के उपयोग की शर्तों (Terms of Use) को लेकर चल रहे विवाद का भी सामना करना पड़ रहा है। उपभोक्ता Copilot की शर्तों में एक खंड है जो स्पष्ट रूप से कहता है कि उपकरण 'केवल मनोरंजन उद्देश्यों के लिए' है और उपयोगकर्ताओं को महत्वपूर्ण सलाह के लिए इस पर भरोसा नहीं करना चाहिए। एक प्रवक्ता ने इस भाषा को एक 'विरासत खंड' बताया है जो Copilot के वर्तमान उपयोग को प्रतिबिंबित नहीं करता है और इसे अगले अपडेट में हटा दिया जाएगा। यह कानूनी बचाव अन्य प्रमुख खिलाड़ियों द्वारा उपयोग किए जाने वाले समान दायित्व अस्वीकरणों के अनुरूप है।

यह कदम माइक्रोसॉफ्ट की एआई स्टैक पर नियंत्रण हासिल करने की व्यापक रणनीति का हिस्सा है, जिसे अक्टूबर 2025 में OpenAI के साथ साझेदारी के पुनर्गठन के बाद बल मिला, जिसने पहले माइक्रोसॉफ्ट को स्वतंत्र रूप से आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) का पीछा करने से प्रतिबंधित कर दिया था। सीईओ सत्य नडेला के नेतृत्व में, कंपनी का लक्ष्य अपने स्वयं के एआई वर्कलोड को चलाने के लिए Maia नामक कस्टम एआई चिप्स में निवेश करते हुए, मानव-केंद्रित एआई का निर्माण करना है। इन नए मॉडलों की उपलब्धता, जो माइक्रोसॉफ्ट फाउंड्री और MAI प्लेग्राउंड के माध्यम से उपलब्ध हैं, बाजार में विकल्पों को बढ़ाती है और एआई अपनाने की बाधाओं को कम कर सकती है।

5 दृश्य

स्रोतों

  • Business Insider

  • VentureBeat

  • AI Business

  • The Register

  • Business Insider

  • Mashable

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।