মাইক্রোসফটের নিজস্ব এআই মডেল উন্মোচন: ওপেনএআই ও গুগলের সঙ্গে সরাসরি প্রতিযোগিতা

সম্পাদনা করেছেন: Aleksandr Lytviak

২০২৬ সালের এপ্রিল মাসের ২ তারিখে, মাইক্রোসফট তিনটি নতুন অভ্যন্তরীণভাবে তৈরি ফাউন্ডেশনাল এআই মডেল উন্মোচন করেছে, যা প্রযুক্তি শিল্পে তাদের কৌশলগত অবস্থানকে নতুন করে সংজ্ঞায়িত করছে। এই মডেলগুলি হলো MAI-Transcribe-1 (ভয়েস-টু-টেক্সট), MAI-Voice-1 (ভয়েস জেনারেশন), এবং MAI-Image-2 (ইমেজ জেনারেশন)। এই পদক্ষেপটি নির্দেশ করে যে সফটওয়্যার জায়ান্টটি এখন কেবল এআই মডেল বিতরণের উপর নির্ভর না করে, মডেল উন্নয়নেও OpenAI এবং Google-এর মতো শীর্ষস্থানীয় ল্যাবগুলির সাথে সরাসরি প্রতিদ্বন্দ্বিতা করতে প্রস্তুত।

এই মডেলগুলি মাইক্রোসফটের সুপারইন্টেলিজেন্স দলের প্রথম উল্লেখযোগ্য আউটপুট, যা মুস্তাফা সুলেমান প্রায় ছয় মাস আগে 'এআই স্বনির্ভরতা' অর্জনের লক্ষ্যে গঠন করেছিলেন। MAI-Transcribe-1 মডেলটি বিশেষভাবে উল্লেখযোগ্য, কারণ এটি মাইক্রোসফটের নিজস্ব বেঞ্চমার্ক অনুযায়ী ২৫টি প্রধান ভাষায় শ্রেষ্ঠত্বের দাবি করেছে। এই স্পিচ-টু-টেক্সট মডেলটি FLEURS বেঞ্চমার্কে গড়ে ৩.৮% শব্দ ত্রুটির হার (WER) অর্জন করেছে, যা OpenAI-এর Whisper-large-v3 এবং Google-এর Gemini 3.1 Flash-এর মতো প্রতিদ্বন্দ্বীদের ছাড়িয়ে গেছে। মাইক্রোসফট জানিয়েছে যে এই মডেলটি তাদের বিদ্যমান Azure Fast অফারিংয়ের চেয়ে ২.৫ গুণ দ্রুত ব্যাচ ট্রান্সক্রিপশন গতি প্রদান করে এবং এর মূল্য প্রতি ঘণ্টা অডিওর জন্য মাত্র $০.৩৬ নির্ধারণ করা হয়েছে, যা এটিকে ক্লাউড প্রদানকারীদের মধ্যে সেরা মূল্য-পারফরম্যান্স হিসেবে প্রতিষ্ঠা করে। বর্তমানে, এই মডেলটি Copilot-এর ভয়েস মোড এবং মাইক্রোসফট টিমস-এর কথোপকথন প্রতিলিপিকরণের জন্য পরীক্ষামূলকভাবে ব্যবহার করা হচ্ছে।

ভয়েস জেনারেশন ক্ষেত্রে, MAI-Voice-1 মডেলটি প্রতি সেকেন্ডে ৬০ সেকেন্ডের অডিও তৈরি করতে সক্ষম, যা এর পূর্বসূরীর তুলনায় উল্লেখযোগ্য গতি বৃদ্ধি নির্দেশ করে। এই মডেলটি মাত্র কয়েক সেকেন্ডের অডিও নমুনা ব্যবহার করে কাস্টম ভয়েস তৈরি করার ক্ষমতা রাখে এবং এর মূল্য প্রতি মিলিয়ন অক্ষরের জন্য $২২ ধার্য করা হয়েছে। অন্যদিকে, MAI-Image-2 হলো তাদের ইমেজ মডেলের দ্বিতীয় প্রজন্ম, যা Arena.ai লিডারবোর্ডে শীর্ষ তিনে স্থান করে নিয়েছে এবং এর পূর্বসূরীর তুলনায় দ্বিগুণ দ্রুত ইমেজ তৈরি করতে পারে। WPP-এর মতো সংস্থাগুলি ইতিমধ্যেই স্কেলে ইমেজ জেনারেশনের জন্য MAI-Image-2 ব্যবহার করছে, যা সৃজনশীল শিল্পে এর বাণিজ্যিক গুরুত্ব তুলে ধরে।

এই প্রযুক্তিগত অগ্রগতির পাশাপাশি, মাইক্রোসফট বর্তমানে ভোক্তা-কেন্দ্রিক Copilot পরিষেবার ব্যবহারের শর্তাবলী (Terms of Use) নিয়ে সমালোচনার সম্মুখীন হচ্ছে। ব্যবহারকারীরা লক্ষ্য করেছেন যে Copilot-এর ভোক্তা সংস্করণের শর্তাবলীতে স্পষ্টভাবে উল্লেখ করা আছে যে টুলটি 'শুধুমাত্র বিনোদনের উদ্দেশ্যে' (only for entertainment purposes) এবং ব্যবহারকারীদের গুরুত্বপূর্ণ পরামর্শের জন্য এর উপর নির্ভর করা উচিত নয়। এই শর্তাবলী, যা অক্টোবর ২০২২-এ আপডেট করা হয়েছিল, তা কোম্পানির Copilot-কে একটি ব্যবসায়িক উৎপাদনশীলতা সরঞ্জাম হিসাবে বাজারজাত করার কৌশলের সঙ্গে সরাসরি সাংঘর্ষিক। এই প্রসঙ্গে, একজন মুখপাত্র এটিকে একটি 'উত্তরাধিকার শর্ত' (legacy term) হিসেবে অভিহিত করেছেন যা আর Copilot-এর বর্তমান ব্যবহারকে প্রতিফলিত করে না এবং পরবর্তী আপডেটে তা পরিবর্তন করা হবে বলে জানিয়েছেন।

যদিও OpenAI, Anthropic এবং Meta-এর মতো প্রতিদ্বন্দ্বীরাও অনুরূপ দায়বদ্ধতা সীমাবদ্ধকারী ভাষা ব্যবহার করে, তবে 'শুধুমাত্র বিনোদনের উদ্দেশ্যে' এই স্পষ্ট উল্লেখটি সমালোচনার জন্ম দিয়েছে। এই নতুন মডেলগুলির উন্মোচন, যা মাইক্রোসফটের অভ্যন্তরীণ খরচ কমানোর লক্ষ্যে আগ্রাসী মূল্য নির্ধারণের সাথে যুক্ত, তা বাজারে প্রতিযোগিতা বাড়ানোর পাশাপাশি এআই অ্যাক্সেসিবিলিটির ক্ষেত্রে নতুন দিগন্ত উন্মোচন করতে পারে। এই মডেলগুলি Microsoft Foundry প্ল্যাটফর্ম এবং নতুন MAI Playground-এর মাধ্যমে ডেভেলপারদের জন্য তাৎক্ষণিকভাবে উপলব্ধ করা হয়েছে।

5 দৃশ্য

উৎসসমূহ

  • Business Insider

  • VentureBeat

  • AI Business

  • The Register

  • Business Insider

  • Mashable

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।