গুগল উন্মোচন করলো জেমিনি ২.৫ কম্পিউটার ইউজ এআই: ডিজিটাল ইন্টারফেস নিয়ন্ত্রণের নতুন দিগন্ত
সম্পাদনা করেছেন: Veronika Radoslavskaya
প্রযুক্তি জগতে এক নতুন দিগন্ত উন্মোচিত হলো গুগল কর্তৃক জেমিনি ২.৫ কম্পিউটার ইউজ মডেলের আনুষ্ঠানিক ঘোষণার মাধ্যমে, যা ৭ই অক্টোবর, ২০২৫ তারিখে প্রকাশিত হয়। গুগল ডিপমাইন্ডের এই উদ্ভাবনটি কৃত্রিম বুদ্ধিমত্তাকে কেবল তথ্য প্রক্রিয়াকরণের স্তর থেকে সরিয়ে এনেছে, এখন এটি সরাসরি ব্যবহারকারী ইন্টারফেসের (UI) সাথে মানুষের মতো মিথস্ক্রিয়া করতে সক্ষম। এই বিশেষায়িত এআই মডেলটি ওয়েবসাইট ব্রাউজ করা, বোতামে ক্লিক করা, ফর্ম পূরণ করা এবং ডিজিটাল পরিবেশে মানুষের মতো কাজগুলো সম্পন্ন করার জন্য তৈরি। এই অত্যাধুনিক ব্যবস্থাটি জেমিনি ২.৫ প্রো-এর শক্তিশালী ভিজ্যুয়াল বোধগম্যতা এবং যুক্তির ওপর ভিত্তি করে নির্মিত।
এর কার্যপ্রণালী একটি নিরবচ্ছিন্ন চক্রের ওপর নির্ভরশীল: প্রথমে ব্যবহারকারীর অনুরোধ গ্রহণ করা হয়, এরপর স্ক্রিনশট বিশ্লেষণ করা হয়, একটি উপযুক্ত ইউআই অ্যাকশন তৈরি করা হয়, সেটি কার্যকর করা হয়, এবং কাজটি সম্পূর্ণ না হওয়া পর্যন্ত এই প্রক্রিয়া চলতে থাকে। এই চক্রাকার পদ্ধতিই এআই এজেন্টকে বাস্তব সময়ে সিদ্ধান্ত নিতে এবং কাজ সম্পাদন করতে সাহায্য করে। ডেভেলপাররা এখন গুগল এআই স্টুডিও এবং ভার্টেক্স এআই প্ল্যাটফর্মের মাধ্যমে এই মডেলটি ব্যবহার করার সুযোগ পাচ্ছেন, যা তাৎক্ষণিক প্রয়োগের পথ সুগম করেছে। বিশেষজ্ঞরা মনে করছেন, এই প্রযুক্তি ডিজিটাল কর্মপ্রবাহকে স্বয়ংক্রিয় করার ক্ষেত্রে এক বিশাল পদক্ষেপ এবং পুনরাবৃত্তিমূলক বা জটিল ডিজিটাল কাজগুলি স্বয়ংক্রিয়ভাবে সম্পন্ন করার জন্য ব্যবহারিক প্রয়োগের সুযোগ তৈরি করে।
গুগল ডিপমাইন্ডের তথ্য অনুসারে, ওয়েব এবং মোবাইল নিয়ন্ত্রণের বেঞ্চমার্কগুলিতে জেমিনি ২.৫ কম্পিউটার ইউজ মডেলটি অন্যান্য প্রতিদ্বন্দ্বীদের ছাড়িয়ে গেছে, বিশেষত কম ল্যাটেন্সির । এটি নির্দিষ্ট পরীক্ষায় ক্লড সনেট ৪.৫-কে ছাড়িয়ে গেছে বলে অনুমান করা হয়। এই পারফরম্যান্সের কারণে এটি ওয়েব অ্যাপ্লিকেশন টেস্টিং এবং ডেটা পার্সিংয়ের মতো কাজে উল্লেখযোগ্য গতি আনতে পারে। উদাহরণস্বরূপ, গুগলের নিজস্ব পেমেন্ট দল এই প্রযুক্তি ব্যবহার করে তাদের ব্যর্থ হওয়া ইউআই পরীক্ষাগুলির ৬০% এরও বেশি পুনরুদ্ধার করতে সক্ষম হয়েছে। এই মডেলটি মূলত ব্রাউজার পরিবেশের জন্য অপ্টিমাইজ করা হলেও, মোবাইল ইউআই নিয়ন্ত্রণেও এর সম্ভাবনার ইঙ্গিত পাওয়া গেছে। তবে, এটি এখনও ডেস্কটপ অপারেটিং সিস্টেম-স্তরের কাজগুলির জন্য পুরোপুরি প্রস্তুত নয়।
ডেভেলপাররা কম্পিউটার ইউজ টুল ব্যবহার করে ডেটা এন্ট্রি স্বয়ংক্রিয় করা থেকে শুরু করে একাধিক ওয়েবসাইট থেকে তথ্য সংগ্রহ করার মতো কাজগুলি এজেন্টদের মাধ্যমে করাতে পারবেন। এই নতুন সক্ষমতাগুলি ডিজিটাল জগতে মানুষের হস্তক্ষেপ ছাড়াই জটিল প্রক্রিয়াগুলি সম্পন্ন করার এক নতুন পথ দেখাচ্ছে, যেখানে প্রতিটি ডিজিটাল মিথস্ক্রিয়া এখন আরও বেশি স্বয়ংক্রিয় ও কার্যকর হওয়ার সম্ভাবনা বহন করে। এই প্রযুক্তির আবির্ভাব কার্যত আমাদের ডিজিটাল জগতের সাথে যোগাযোগের পদ্ধতিকে নতুন করে সংজ্ঞায়িত করছে, যা আগামী দিনের কর্মক্ষেত্রকে আরও গতিশীল করে তুলবে। গুগল অন্তর্নির্মিত সুরক্ষা ব্যবস্থার কথা উল্লেখ করেছে: পেমেন্ট নিশ্চিতকরণের মতো অত্যন্ত গুরুত্বপূর্ণ কাজগুলির জন্য ব্যবহারকারীর স্পষ্ট অনুমোদনের প্রয়োজন হয়, যা মূল অপারেশনগুলির উপর নিয়ন্ত্রণ বজায় রাখার গুরুত্ব তুলে ধরে।
উৎসসমূহ
El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?
আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।
