গুগল উন্মোচন করলো জেমিনি ২.৫ কম্পিউটার ইউজ এআই: ডিজিটাল ইন্টারফেস নিয়ন্ত্রণের নতুন দিগন্ত

সম্পাদনা করেছেন: Veronika Radoslavskaya

প্রযুক্তি জগতে এক নতুন দিগন্ত উন্মোচিত হলো গুগল কর্তৃক জেমিনি ২.৫ কম্পিউটার ইউজ মডেলের আনুষ্ঠানিক ঘোষণার মাধ্যমে, যা ৭ই অক্টোবর, ২০২৫ তারিখে প্রকাশিত হয়। গুগল ডিপমাইন্ডের এই উদ্ভাবনটি কৃত্রিম বুদ্ধিমত্তাকে কেবল তথ্য প্রক্রিয়াকরণের স্তর থেকে সরিয়ে এনেছে, এখন এটি সরাসরি ব্যবহারকারী ইন্টারফেসের (UI) সাথে মানুষের মতো মিথস্ক্রিয়া করতে সক্ষম। এই বিশেষায়িত এআই মডেলটি ওয়েবসাইট ব্রাউজ করা, বোতামে ক্লিক করা, ফর্ম পূরণ করা এবং ডিজিটাল পরিবেশে মানুষের মতো কাজগুলো সম্পন্ন করার জন্য তৈরি। এই অত্যাধুনিক ব্যবস্থাটি জেমিনি ২.৫ প্রো-এর শক্তিশালী ভিজ্যুয়াল বোধগম্যতা এবং যুক্তির ওপর ভিত্তি করে নির্মিত।

এর কার্যপ্রণালী একটি নিরবচ্ছিন্ন চক্রের ওপর নির্ভরশীল: প্রথমে ব্যবহারকারীর অনুরোধ গ্রহণ করা হয়, এরপর স্ক্রিনশট বিশ্লেষণ করা হয়, একটি উপযুক্ত ইউআই অ্যাকশন তৈরি করা হয়, সেটি কার্যকর করা হয়, এবং কাজটি সম্পূর্ণ না হওয়া পর্যন্ত এই প্রক্রিয়া চলতে থাকে। এই চক্রাকার পদ্ধতিই এআই এজেন্টকে বাস্তব সময়ে সিদ্ধান্ত নিতে এবং কাজ সম্পাদন করতে সাহায্য করে। ডেভেলপাররা এখন গুগল এআই স্টুডিও এবং ভার্টেক্স এআই প্ল্যাটফর্মের মাধ্যমে এই মডেলটি ব্যবহার করার সুযোগ পাচ্ছেন, যা তাৎক্ষণিক প্রয়োগের পথ সুগম করেছে। বিশেষজ্ঞরা মনে করছেন, এই প্রযুক্তি ডিজিটাল কর্মপ্রবাহকে স্বয়ংক্রিয় করার ক্ষেত্রে এক বিশাল পদক্ষেপ এবং পুনরাবৃত্তিমূলক বা জটিল ডিজিটাল কাজগুলি স্বয়ংক্রিয়ভাবে সম্পন্ন করার জন্য ব্যবহারিক প্রয়োগের সুযোগ তৈরি করে।

গুগল ডিপমাইন্ডের তথ্য অনুসারে, ওয়েব এবং মোবাইল নিয়ন্ত্রণের বেঞ্চমার্কগুলিতে জেমিনি ২.৫ কম্পিউটার ইউজ মডেলটি অন্যান্য প্রতিদ্বন্দ্বীদের ছাড়িয়ে গেছে, বিশেষত কম ল্যাটেন্সির । এটি নির্দিষ্ট পরীক্ষায় ক্লড সনেট ৪.৫-কে ছাড়িয়ে গেছে বলে অনুমান করা হয়। এই পারফরম্যান্সের কারণে এটি ওয়েব অ্যাপ্লিকেশন টেস্টিং এবং ডেটা পার্সিংয়ের মতো কাজে উল্লেখযোগ্য গতি আনতে পারে। উদাহরণস্বরূপ, গুগলের নিজস্ব পেমেন্ট দল এই প্রযুক্তি ব্যবহার করে তাদের ব্যর্থ হওয়া ইউআই পরীক্ষাগুলির ৬০% এরও বেশি পুনরুদ্ধার করতে সক্ষম হয়েছে। এই মডেলটি মূলত ব্রাউজার পরিবেশের জন্য অপ্টিমাইজ করা হলেও, মোবাইল ইউআই নিয়ন্ত্রণেও এর সম্ভাবনার ইঙ্গিত পাওয়া গেছে। তবে, এটি এখনও ডেস্কটপ অপারেটিং সিস্টেম-স্তরের কাজগুলির জন্য পুরোপুরি প্রস্তুত নয়।

ডেভেলপাররা কম্পিউটার ইউজ টুল ব্যবহার করে ডেটা এন্ট্রি স্বয়ংক্রিয় করা থেকে শুরু করে একাধিক ওয়েবসাইট থেকে তথ্য সংগ্রহ করার মতো কাজগুলি এজেন্টদের মাধ্যমে করাতে পারবেন। এই নতুন সক্ষমতাগুলি ডিজিটাল জগতে মানুষের হস্তক্ষেপ ছাড়াই জটিল প্রক্রিয়াগুলি সম্পন্ন করার এক নতুন পথ দেখাচ্ছে, যেখানে প্রতিটি ডিজিটাল মিথস্ক্রিয়া এখন আরও বেশি স্বয়ংক্রিয় ও কার্যকর হওয়ার সম্ভাবনা বহন করে। এই প্রযুক্তির আবির্ভাব কার্যত আমাদের ডিজিটাল জগতের সাথে যোগাযোগের পদ্ধতিকে নতুন করে সংজ্ঞায়িত করছে, যা আগামী দিনের কর্মক্ষেত্রকে আরও গতিশীল করে তুলবে। গুগল অন্তর্নির্মিত সুরক্ষা ব্যবস্থার কথা উল্লেখ করেছে: পেমেন্ট নিশ্চিতকরণের মতো অত্যন্ত গুরুত্বপূর্ণ কাজগুলির জন্য ব্যবহারকারীর স্পষ্ট অনুমোদনের প্রয়োজন হয়, যা মূল অপারেশনগুলির উপর নিয়ন্ত্রণ বজায় রাখার গুরুত্ব তুলে ধরে।

উৎসসমূহ

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?

আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।