গুগল ডিপমাইন্ডের জেমিনি ৩ ফ্ল্যাশে এজেন্টিক ভিশন: চিত্র উপলব্ধিতে সক্রিয় বিশ্লেষণ

20:50, 04 ফেব্রুয়ারি

সম্পাদনা করেছেন: Aleksandr Lytviak

গুগল ডিপমাইন্ডের জেমিনি ৩ ফ্ল্যাশে এজেন্টিক ভিশন: চিত্র উপলব্ধিতে সক্রিয় বিশ্লেষণ-1

গুগল ডিপমাইন্ড তাদের জেমিনি এআই (Gemini AI) সিরিজের জেমিনি ৩ ফ্ল্যাশ (Gemini 3 Flash) মডেলে ‘এজেন্টিক ভিশন’ (Agentic Vision) নামক একটি নতুন সক্ষমতা যুক্ত করেছে, যা কৃত্রিম বুদ্ধিমত্তার চিত্র প্রক্রিয়াকরণের পদ্ধতিতে পরিবর্তন আনছে। এই বৈশিষ্ট্যটি চিত্র উপলব্ধিকে একটি স্থির পর্যবেক্ষণ থেকে সক্রিয়, প্রমাণ-ভিত্তিক যুক্তির প্রক্রিয়ায় রূপান্তরিত করে, যেখানে মডেলটি কেবল একবার দেখে সিদ্ধান্ত নেওয়ার পরিবর্তে সক্রিয়ভাবে চিত্রটি তদন্ত করে। এই প্রযুক্তিটি মূলত একটি সুসংগঠিত ‘চিন্তা, কাজ, পর্যবেক্ষণ’ (Think, Act, Observe) চক্রের উপর ভিত্তি করে তৈরি, যা ভিজ্যুয়াল ডেটার উপর ভিত্তি করে নির্ভুলতা নিশ্চিত করার লক্ষ্যে কাজ করে।

ঐতিহ্যগত মাল্টিমোডাল মডেলগুলি সাধারণত চিত্রগুলিকে একটি একক পাসে প্রক্রিয়াকরণ করত, যার ফলে সিরিয়াল নম্বর বা জটিল ডায়াগ্রামের ক্ষুদ্র অংশগুলির মতো সূক্ষ্ম ভিজ্যুয়াল ডেটা শনাক্ত করতে ব্যর্থ হওয়ার প্রবণতা ছিল। এজেন্টিক ভিশন এই সীমাবদ্ধতা অতিক্রম করার জন্য নকশা করা হয়েছে। মডেলটি ব্যবহারকারীর প্রশ্ন এবং চিত্রটি বিশ্লেষণ করে একটি পরিকল্পনা তৈরি করে, এরপর পাইথন কোড কার্যকর করার মাধ্যমে সক্রিয়ভাবে চিত্রের বিশ্লেষণ পরিচালনা করে, যেমন জুম করা বা ক্রপ করা, এবং অবশেষে প্রাপ্ত রূপান্তরিত আউটপুটের ভিত্তিতে চূড়ান্ত উত্তর প্রদান করে। এই প্রক্রিয়াটি মডেলকে স্ব-সংশোধন এবং পরিমার্জনের ক্ষমতা দেয়, যা উৎপাদন-স্তরের ভিশন কাজের জন্য গুরুত্বপূর্ণ।

এই কাঠামোগত পরিবর্তনের ফলে কর্মক্ষমতার উল্লেখযোগ্য উন্নতি সাধিত হয়েছে। গুগল ডিপমাইন্ড জানিয়েছে যে জেমিনি ৩ ফ্ল্যাশে কোড কার্যকর করার সক্ষমতা যুক্ত করার ফলে বেশিরভাগ ভিশন বেঞ্চমার্কে ধারাবাহিকভাবে ৫ থেকে ১০ শতাংশ গুণগত মান বৃদ্ধি পেয়েছে। এই ধরনের কর্মক্ষমতা বৃদ্ধি বিশেষত সেইসব ক্ষেত্রে মূল্যবান যেখানে সূক্ষ্ম বিবরণের নির্ভুলতা অত্যাবশ্যক। এজেন্টিক ভিশনের মাধ্যমে প্রদর্শিত নতুন আচরণগুলির মধ্যে পুনরাবৃত্তিমূলক জুম করা, সরাসরি চিত্র টীকা তৈরি করা এবং ভিজ্যুয়াল প্লটিং অন্তর্ভুক্ত, যা গুগল এআই স্টুডিওর মাধ্যমে প্রদর্শন করা হয়েছে।

বিশেষভাবে উল্লেখযোগ্য হলো, ভিজ্যুয়াল প্লটিংয়ের মাধ্যমে বহুধাপের গাণিতিক বা গণনার কাজে হ্যালুসিনেশন হ্রাস করা সম্ভব হয়েছে, যা পূর্বে মাল্টিমোডাল মডেলগুলির একটি সাধারণ সমস্যা ছিল। এই প্রযুক্তিটি এজেন্টিক বৃহৎ ভাষা মডেলগুলির (Agentic LLMs) বৃহত্তর কাঠামোর অংশ, যা কেবল যুক্তি (reasoning) নয়, কাজ (acting) এবং মিথস্ক্রিয়াকেও (interacting) অন্তর্ভুক্ত করে। ব্যবহারিক প্রয়োগের ক্ষেত্রে, এই সক্ষমতা গুগল এআই স্টুডিও এবং ভার্টেক্স এআই-এর মাধ্যমে ডেভেলপারদের জন্য উপলব্ধ করা হয়েছে। জেমিনি ৩ ফ্ল্যাশ মডেলটি তার গতি এবং দক্ষতার জন্য পরিচিত, যা এটিকে জটিল এজেন্টিক ওয়ার্কফ্লো এবং কম লেটেন্সি প্রয়োজন এমন অ্যাপ্লিকেশনগুলির জন্য উপযুক্ত করে তোলে, যেখানে এটি জেমিনি ৩ প্রো-এর কাছাকাছি যুক্তির গুণমান বজায় রাখে।

Google DeepMind

11 দৃশ্য

উৎসসমূহ

MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver

এই বিষয়ে আরও নিবন্ধ পড়ুন:

01 এপ্রিল

২০২৬ সালের মিউজিক প্লেয়ার: আপনার মেজাজ অনুযায়ী যেভাবে বদলে যাচ্ছে সুরের মূর্ছনা

01 এপ্রিল

"ব্যথামুক্ত" চিকিৎসা: ওপিওয়েড ছাড়াই দীর্ঘস্থায়ী ব্যথা দূর করতে কৃত্রিম বুদ্ধিমত্তার সহায়তায় জিন থেরাপি উদ্ভাবন

25 মার্চ

ওপেনএআই-এর সোরা বন্ধের ঘোষণা: কেন হঠাৎ অপ্রাসঙ্গিক হয়ে পড়ল এই এআই ভিডিও জেনারেটর?

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।