গুগল ডিপমাইন্ডের জেমিনি ৩ ফ্ল্যাশে এজেন্টিক ভিশন: চিত্র উপলব্ধিতে সক্রিয় বিশ্লেষণ

সম্পাদনা করেছেন: gaya ❤️ one

গুগল ডিপমাইন্ড তাদের জেমিনি এআই (Gemini AI) সিরিজের জেমিনি ৩ ফ্ল্যাশ (Gemini 3 Flash) মডেলে ‘এজেন্টিক ভিশন’ (Agentic Vision) নামক একটি নতুন সক্ষমতা যুক্ত করেছে, যা কৃত্রিম বুদ্ধিমত্তার চিত্র প্রক্রিয়াকরণের পদ্ধতিতে পরিবর্তন আনছে। এই বৈশিষ্ট্যটি চিত্র উপলব্ধিকে একটি স্থির পর্যবেক্ষণ থেকে সক্রিয়, প্রমাণ-ভিত্তিক যুক্তির প্রক্রিয়ায় রূপান্তরিত করে, যেখানে মডেলটি কেবল একবার দেখে সিদ্ধান্ত নেওয়ার পরিবর্তে সক্রিয়ভাবে চিত্রটি তদন্ত করে। এই প্রযুক্তিটি মূলত একটি সুসংগঠিত ‘চিন্তা, কাজ, পর্যবেক্ষণ’ (Think, Act, Observe) চক্রের উপর ভিত্তি করে তৈরি, যা ভিজ্যুয়াল ডেটার উপর ভিত্তি করে নির্ভুলতা নিশ্চিত করার লক্ষ্যে কাজ করে।

ঐতিহ্যগত মাল্টিমোডাল মডেলগুলি সাধারণত চিত্রগুলিকে একটি একক পাসে প্রক্রিয়াকরণ করত, যার ফলে সিরিয়াল নম্বর বা জটিল ডায়াগ্রামের ক্ষুদ্র অংশগুলির মতো সূক্ষ্ম ভিজ্যুয়াল ডেটা শনাক্ত করতে ব্যর্থ হওয়ার প্রবণতা ছিল। এজেন্টিক ভিশন এই সীমাবদ্ধতা অতিক্রম করার জন্য নকশা করা হয়েছে। মডেলটি ব্যবহারকারীর প্রশ্ন এবং চিত্রটি বিশ্লেষণ করে একটি পরিকল্পনা তৈরি করে, এরপর পাইথন কোড কার্যকর করার মাধ্যমে সক্রিয়ভাবে চিত্রের বিশ্লেষণ পরিচালনা করে, যেমন জুম করা বা ক্রপ করা, এবং অবশেষে প্রাপ্ত রূপান্তরিত আউটপুটের ভিত্তিতে চূড়ান্ত উত্তর প্রদান করে। এই প্রক্রিয়াটি মডেলকে স্ব-সংশোধন এবং পরিমার্জনের ক্ষমতা দেয়, যা উৎপাদন-স্তরের ভিশন কাজের জন্য গুরুত্বপূর্ণ।

এই কাঠামোগত পরিবর্তনের ফলে কর্মক্ষমতার উল্লেখযোগ্য উন্নতি সাধিত হয়েছে। গুগল ডিপমাইন্ড জানিয়েছে যে জেমিনি ৩ ফ্ল্যাশে কোড কার্যকর করার সক্ষমতা যুক্ত করার ফলে বেশিরভাগ ভিশন বেঞ্চমার্কে ধারাবাহিকভাবে ৫ থেকে ১০ শতাংশ গুণগত মান বৃদ্ধি পেয়েছে। এই ধরনের কর্মক্ষমতা বৃদ্ধি বিশেষত সেইসব ক্ষেত্রে মূল্যবান যেখানে সূক্ষ্ম বিবরণের নির্ভুলতা অত্যাবশ্যক। এজেন্টিক ভিশনের মাধ্যমে প্রদর্শিত নতুন আচরণগুলির মধ্যে পুনরাবৃত্তিমূলক জুম করা, সরাসরি চিত্র টীকা তৈরি করা এবং ভিজ্যুয়াল প্লটিং অন্তর্ভুক্ত, যা গুগল এআই স্টুডিওর মাধ্যমে প্রদর্শন করা হয়েছে।

বিশেষভাবে উল্লেখযোগ্য হলো, ভিজ্যুয়াল প্লটিংয়ের মাধ্যমে বহুধাপের গাণিতিক বা গণনার কাজে হ্যালুসিনেশন হ্রাস করা সম্ভব হয়েছে, যা পূর্বে মাল্টিমোডাল মডেলগুলির একটি সাধারণ সমস্যা ছিল। এই প্রযুক্তিটি এজেন্টিক বৃহৎ ভাষা মডেলগুলির (Agentic LLMs) বৃহত্তর কাঠামোর অংশ, যা কেবল যুক্তি (reasoning) নয়, কাজ (acting) এবং মিথস্ক্রিয়াকেও (interacting) অন্তর্ভুক্ত করে। ব্যবহারিক প্রয়োগের ক্ষেত্রে, এই সক্ষমতা গুগল এআই স্টুডিও এবং ভার্টেক্স এআই-এর মাধ্যমে ডেভেলপারদের জন্য উপলব্ধ করা হয়েছে। জেমিনি ৩ ফ্ল্যাশ মডেলটি তার গতি এবং দক্ষতার জন্য পরিচিত, যা এটিকে জটিল এজেন্টিক ওয়ার্কফ্লো এবং কম লেটেন্সি প্রয়োজন এমন অ্যাপ্লিকেশনগুলির জন্য উপযুক্ত করে তোলে, যেখানে এটি জেমিনি ৩ প্রো-এর কাছাকাছি যুক্তির গুণমান বজায় রাখে।

2 দৃশ্য

উৎসসমূহ

  • MarkTechPost

  • Edge AI and Vision Alliance

  • The Keyword

  • r/singularity - Reddit

  • The Neuron

  • PlanCheckSolver

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।