গুগল ডিপমাইন্ডের জেমিনি ৩ ফ্ল্যাশে এজেন্টিক ভিশন: চিত্র উপলব্ধিতে সক্রিয় বিশ্লেষণ
সম্পাদনা করেছেন: gaya ❤️ one
গুগল ডিপমাইন্ড তাদের জেমিনি এআই (Gemini AI) সিরিজের জেমিনি ৩ ফ্ল্যাশ (Gemini 3 Flash) মডেলে ‘এজেন্টিক ভিশন’ (Agentic Vision) নামক একটি নতুন সক্ষমতা যুক্ত করেছে, যা কৃত্রিম বুদ্ধিমত্তার চিত্র প্রক্রিয়াকরণের পদ্ধতিতে পরিবর্তন আনছে। এই বৈশিষ্ট্যটি চিত্র উপলব্ধিকে একটি স্থির পর্যবেক্ষণ থেকে সক্রিয়, প্রমাণ-ভিত্তিক যুক্তির প্রক্রিয়ায় রূপান্তরিত করে, যেখানে মডেলটি কেবল একবার দেখে সিদ্ধান্ত নেওয়ার পরিবর্তে সক্রিয়ভাবে চিত্রটি তদন্ত করে। এই প্রযুক্তিটি মূলত একটি সুসংগঠিত ‘চিন্তা, কাজ, পর্যবেক্ষণ’ (Think, Act, Observe) চক্রের উপর ভিত্তি করে তৈরি, যা ভিজ্যুয়াল ডেটার উপর ভিত্তি করে নির্ভুলতা নিশ্চিত করার লক্ষ্যে কাজ করে।
ঐতিহ্যগত মাল্টিমোডাল মডেলগুলি সাধারণত চিত্রগুলিকে একটি একক পাসে প্রক্রিয়াকরণ করত, যার ফলে সিরিয়াল নম্বর বা জটিল ডায়াগ্রামের ক্ষুদ্র অংশগুলির মতো সূক্ষ্ম ভিজ্যুয়াল ডেটা শনাক্ত করতে ব্যর্থ হওয়ার প্রবণতা ছিল। এজেন্টিক ভিশন এই সীমাবদ্ধতা অতিক্রম করার জন্য নকশা করা হয়েছে। মডেলটি ব্যবহারকারীর প্রশ্ন এবং চিত্রটি বিশ্লেষণ করে একটি পরিকল্পনা তৈরি করে, এরপর পাইথন কোড কার্যকর করার মাধ্যমে সক্রিয়ভাবে চিত্রের বিশ্লেষণ পরিচালনা করে, যেমন জুম করা বা ক্রপ করা, এবং অবশেষে প্রাপ্ত রূপান্তরিত আউটপুটের ভিত্তিতে চূড়ান্ত উত্তর প্রদান করে। এই প্রক্রিয়াটি মডেলকে স্ব-সংশোধন এবং পরিমার্জনের ক্ষমতা দেয়, যা উৎপাদন-স্তরের ভিশন কাজের জন্য গুরুত্বপূর্ণ।
এই কাঠামোগত পরিবর্তনের ফলে কর্মক্ষমতার উল্লেখযোগ্য উন্নতি সাধিত হয়েছে। গুগল ডিপমাইন্ড জানিয়েছে যে জেমিনি ৩ ফ্ল্যাশে কোড কার্যকর করার সক্ষমতা যুক্ত করার ফলে বেশিরভাগ ভিশন বেঞ্চমার্কে ধারাবাহিকভাবে ৫ থেকে ১০ শতাংশ গুণগত মান বৃদ্ধি পেয়েছে। এই ধরনের কর্মক্ষমতা বৃদ্ধি বিশেষত সেইসব ক্ষেত্রে মূল্যবান যেখানে সূক্ষ্ম বিবরণের নির্ভুলতা অত্যাবশ্যক। এজেন্টিক ভিশনের মাধ্যমে প্রদর্শিত নতুন আচরণগুলির মধ্যে পুনরাবৃত্তিমূলক জুম করা, সরাসরি চিত্র টীকা তৈরি করা এবং ভিজ্যুয়াল প্লটিং অন্তর্ভুক্ত, যা গুগল এআই স্টুডিওর মাধ্যমে প্রদর্শন করা হয়েছে।
বিশেষভাবে উল্লেখযোগ্য হলো, ভিজ্যুয়াল প্লটিংয়ের মাধ্যমে বহুধাপের গাণিতিক বা গণনার কাজে হ্যালুসিনেশন হ্রাস করা সম্ভব হয়েছে, যা পূর্বে মাল্টিমোডাল মডেলগুলির একটি সাধারণ সমস্যা ছিল। এই প্রযুক্তিটি এজেন্টিক বৃহৎ ভাষা মডেলগুলির (Agentic LLMs) বৃহত্তর কাঠামোর অংশ, যা কেবল যুক্তি (reasoning) নয়, কাজ (acting) এবং মিথস্ক্রিয়াকেও (interacting) অন্তর্ভুক্ত করে। ব্যবহারিক প্রয়োগের ক্ষেত্রে, এই সক্ষমতা গুগল এআই স্টুডিও এবং ভার্টেক্স এআই-এর মাধ্যমে ডেভেলপারদের জন্য উপলব্ধ করা হয়েছে। জেমিনি ৩ ফ্ল্যাশ মডেলটি তার গতি এবং দক্ষতার জন্য পরিচিত, যা এটিকে জটিল এজেন্টিক ওয়ার্কফ্লো এবং কম লেটেন্সি প্রয়োজন এমন অ্যাপ্লিকেশনগুলির জন্য উপযুক্ত করে তোলে, যেখানে এটি জেমিনি ৩ প্রো-এর কাছাকাছি যুক্তির গুণমান বজায় রাখে।
2 দৃশ্য
উৎসসমূহ
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।