গুগল জেমিনি ৩.১ প্রো উন্মোচন করেছে: উন্নত যুক্তি ক্ষমতা, এজেন্টিক ওয়ার্কফ্লো এবং গভীর ইকোসিস্টেম ইন্টিগ্রেশন

18:57, 19 ফেব্রুয়ারি

লেখক: Veronika Radoslavskaya

২০২৬ সালের ১৯ ফেব্রুয়ারি গুগল তাদের কৃত্রিম বুদ্ধিমত্তার জগতে এক নতুন মাইলফলক হিসেবে 'জেমিনি ৩.১ প্রো' (Gemini 3.1 Pro) মডেলের বিস্তারিত উন্মোচন করেছে। এই অত্যাধুনিক মডেলটি মূলত ওয়েব প্ল্যাটফর্ম এবং উচ্চতর এন্টারপ্রাইজ অ্যাপ্লিকেশনগুলোর জন্য তৈরি করা হয়েছে। গুগলের পেইড সাবস্ক্রিপশন ব্যবহারকারীদের জন্য উপলব্ধ এই সংস্করণটি বিমূর্ত যুক্তি প্রদান এবং রিয়েল-টাইম সহায়তার ক্ষেত্রে এক অভাবনীয় উন্নতি নিয়ে এসেছে যা গুগলের মাল্টিমোডাল এআই ইকোসিস্টেমের সাথে নিখুঁতভাবে কাজ করে।

জেমিনি ৩.১ প্রো-এর সবচেয়ে উল্লেখযোগ্য দিক হলো এর উন্নত যুক্তি ক্ষমতা। এআরসি-এজিআই-২ (ARC-AGI-2) বেঞ্চমার্কে এই মডেলটি ৭৭.১% স্কোর অর্জন করে সবাইকে চমকে দিয়েছে। এটি মাত্র কয়েক মাস আগের সংস্করণ জেমিনি ৩ প্রো-এর ৩১.১% স্কোরের তুলনায় দ্বিগুণেরও বেশি। এই সাফল্যের মাধ্যমে মডেলটি যুক্তি-নির্ভর পরীক্ষায় গড় মানুষের বুদ্ধিবৃত্তিক সক্ষমতাকে আনুষ্ঠানিকভাবে ছাড়িয়ে যেতে সক্ষম হয়েছে।

কোডিং এবং বৈজ্ঞানিক গবেষণার ক্ষেত্রেও ৩.১ প্রো সংস্করণটি নতুন মানদণ্ড স্থাপন করেছে। অভ্যন্তরীণ পরীক্ষার তথ্যানুযায়ী, এটি স্বায়ত্তশাসিত কোড এক্সিকিউশন এবং জটিল বৈজ্ঞানিক যুক্তি বিশ্লেষণে আগের চেয়ে অনেক বেশি নির্ভুল। এটি বর্তমানে একটি অত্যন্ত দক্ষ গবেষণা এজেন্ট হিসেবে কাজ করতে পারে, যা গবেষকদের জটিল ডেটা বিশ্লেষণে সরাসরি সহায়তা প্রদান করে এবং গবেষণার গতি বহুগুণ বাড়িয়ে দেয়।

জেমিনি ৩.১ প্রো মডেলটি মূলত উচ্চ-মানের টেক্সট উৎপাদন এবং রিয়েল-টাইম যুক্তির ওপর ভিত্তি করে তৈরি হলেও, এটি গুগলের পুরো মাল্টিমোডাল এআই ইকোসিস্টেমের একটি কেন্দ্রীয় অর্কেস্ট্রেটর হিসেবে কাজ করে। এর মাধ্যমে ব্যবহারকারীরা গুগলের বিভিন্ন বিশেষায়িত মডেলগুলোর সুবিধা একই প্ল্যাটফর্মে উপভোগ করতে পারবেন। এটি সৃজনশীল কাজের প্রক্রিয়াকে আরও গতিশীল ও সমন্বিত করে তুলেছে।

ন্যানো ব্যানানা (Nano Banana): এই মডেলটি উচ্চ-মানের টেক্সট রেন্ডারিং সহ ছবি তৈরি ও সম্পাদনা করতে পারে। এটি টেক্সট-টু-ইমেজ এবং মাল্টি-ইমেজ কম্পোজিশন প্রযুক্তির সমন্বয়ে অত্যন্ত নিখুঁত ছবি তৈরি করে।
ভিও (Veo): এটি উচ্চ-মানের ভিডিও তৈরি করতে সক্ষম যেখানে অডিও স্বয়ংক্রিয়ভাবে তৈরি হয়। ব্যবহারকারীরা চাইলে বিদ্যমান ভিডিও ক্লিপের দৈর্ঘ্য বাড়াতে পারেন অথবা নির্দিষ্ট রেফারেন্স ছবির মাধ্যমে নতুন ভিডিও তৈরির নির্দেশনা দিতে পারেন।
লিরিয়া ৩ (Lyria 3): সংগীত জগতের জন্য এটি পেশাদার মানের ৩০ সেকেন্ডের মিউজিক ট্র্যাক তৈরি করতে সক্ষম। এতে বিভিন্ন ভাষায় বাস্তবসম্মত কণ্ঠস্বর এবং স্বয়ংক্রিয় লিরিক্স যুক্ত করার সুবিধা রয়েছে, যা সিনথআইডি (SynthID) ওয়াটারমার্কিং দ্বারা সুরক্ষিত।

মোবাইল ব্যবহারকারীদের জন্য 'জেমিনি লাইভ' (Gemini Live) মোডটিকে আরও উন্নত করা হয়েছে। অ্যান্ড্রয়েড এবং আইওএস প্ল্যাটফর্মে এটি এখন একটি সাধারণ চ্যাটবটের পরিবর্তে একজন জীবন্ত সহকারীর মতো কাজ করে। ব্যবহারকারীরা এখন এআই-এর সাথে সরাসরি ভয়েস কথোপকথন করতে পারেন এবং কথা বলার মাঝে কোনো বাধা আসলে এআই তা অত্যন্ত সাবলীলভাবে সামলে নিতে পারে।

এই মোবাইল ইন্টেলিজেন্সের আরও একটি বিশেষ দিক হলো ক্যামেরা এবং স্ক্রিন শেয়ারিং সুবিধা। ব্যবহারকারীরা তাদের ফোনের লাইভ ক্যামেরা ফিড শেয়ার করে চারপাশের পরিবেশ সম্পর্কে সরাসরি প্রশ্ন করতে পারেন। এছাড়াও স্ক্রিন শেয়ারিংয়ের মাধ্যমে বিভিন্ন অ্যাপ ব্যবহারের ক্ষেত্রে ধাপে ধাপে সহায়তা পাওয়া সম্ভব। এটি আপলোড করা বিভিন্ন ফাইল, জটিল নথিপত্র এবং এমনকি ইউটিউব ভিডিওর বিষয়বস্তু নিয়েও বিস্তারিত আলোচনা করতে সক্ষম।

জেমিনি ৩.১ প্রো মূলত এন্টারপ্রাইজ বা প্রাতিষ্ঠানিক পর্যায়ের জটিল এবং স্বায়ত্তশাসিত কাজের জন্য ডিজাইন করা হয়েছে। এটি গুগলের এজেন্টিক ডেভেলপমেন্ট প্ল্যাটফর্ম 'অ্যান্টিগ্রাভিটি' (Antigravity)-এর মূল চালিকাশক্তি হিসেবে কাজ করে। বিভিন্ন জটিল টুল ব্যবহার এবং কোড এক্সিকিউশন ওয়ার্কফ্লোর ক্ষেত্রে এই মডেলটিকে বিশেষভাবে অপ্টিমাইজ করা হয়েছে যাতে এটি নির্ভুল এবং দ্রুত ফলাফল দিতে পারে।

তথ্য বিশ্লেষণের ক্ষেত্রে এই মডেলটি এক বিশাল মাইলফলক স্পর্শ করেছে। এটি এখন আনুষ্ঠানিকভাবে ১ মিলিয়ন টোকেন কনটেক্সট উইন্ডো সমর্থন করে। এর পাশাপাশি এর আউটপুট সীমা ৬৫,৫৩৬ (৬৪কে) টোকেন পর্যন্ত বর্ধিত করা হয়েছে। এর ফলে ব্যবহারকারীরা একটি মাত্র প্রম্পটের মাধ্যমে বিশাল কোনো ডেটাসেট বা দীর্ঘ কোনো নথি অত্যন্ত গভীরভাবে বিশ্লেষণ করতে পারবেন যা আগে অসম্ভব ছিল।

সবশেষে, নোটবুকএলএম (NotebookLM) ইন্টিগ্রেশনের মাধ্যমে প্রো এবং আল্ট্রা গ্রাহকরা গবেষণার কাজে এক অনন্য সুবিধা পাবেন। এই বিশাল সক্ষমতা ব্যবহার করে গবেষকরা অনেকগুলো রিসার্চ পেপার বা কোড রিপোজিটরি থেকে খুব দ্রুত কাঠামোগত রিপোর্ট তৈরি করতে পারবেন। এটি দীর্ঘমেয়াদী গবেষণার কাজকে অনেক কম সময়ে এবং কম পরিশ্রমে সম্পন্ন করতে সাহায্য করবে, যা পেশাদারদের জন্য অত্যন্ত কার্যকর।

google