गूगल डीपमाइंड ने जेमिनी 3 फ्लैश में एजेंटिक विजन जोड़ा, सक्रिय जांच से छवि समझ में सुधार

द्वारा संपादित: gaya ❤️ one

गूगल डीपमाइंड ने अपने जेमिनी 3 फ्लैश मॉडल में एजेंटिक विजन नामक एक महत्वपूर्ण क्षमता को एकीकृत किया है, जो कृत्रिम बुद्धिमत्ता के लिए दृश्य डेटा के प्रसंस्करण के तरीके में एक मौलिक बदलाव का संकेत देता है। यह नवाचार पारंपरिक मल्टीमॉडल मॉडलों की एक सीमा को संबोधित करता है, जहाँ छवियों को केवल एक बार, स्थिर रूप से संसाधित किया जाता था, जिससे महत्वपूर्ण दृश्य विवरण छूट सकते थे और मॉडल को अनुमान लगाने के लिए मजबूर होना पड़ता था। एजेंटिक विजन इस निष्क्रिय अवलोकन को एक सक्रिय जांच में बदल देता है, जो दृश्य साक्ष्य के माध्यम से समझ को मजबूत करने के लिए पायथन कोड निष्पादन को एक उपकरण के रूप में उपयोग करता है।

इस वास्तुकला परिवर्तन का केंद्र 'सोचो, कार्य करो, अवलोकन करो' (Think, Act, Observe) नामक एक संरचित चक्र है। 'सोचो' चरण में, मॉडल उपयोगकर्ता के प्रश्न और प्रारंभिक छवि का विश्लेषण करता है और एक बहु-चरणीय योजना तैयार करता है। इसके बाद, 'कार्य' चरण में, मॉडल सक्रिय रूप से छवियों में हेरफेर करने या उनका विश्लेषण करने के लिए पायथन कोड उत्पन्न और निष्पादित करता है, जैसे कि ज़ूम करना, क्रॉप करना, या बाउंडिंग बॉक्स बनाना। अंत में, 'अवलोकन' चरण में, परिवर्तित आउटपुट को मॉडल के संदर्भ विंडो में जोड़ा जाता है, जिससे उसे अंतिम उत्तर देने से पहले बेहतर संदर्भ के साथ नए डेटा का निरीक्षण करने की अनुमति मिलती है।

यह पुनरावृत्तीय निरीक्षण विधि विशेष रूप से उच्च-रिज़ॉल्यूशन इनपुट पर स्वचालित ज़ूमिंग जैसे उपयोग के मामलों में सटीकता को बढ़ाती है। कोड निष्पादन को सक्षम करने से जेमिनी 3 फ्लैश के अधिकांश विजन बेंचमार्क पर लगातार 5 से 10% गुणवत्ता वृद्धि प्राप्त होती है। प्लानचेकसॉल्वर डॉट कॉम जैसे शुरुआती अपनाने वालों ने इस पुनरावृत्तीय निरीक्षण दृष्टिकोण का उपयोग करके सटीकता में 5% तक की वृद्धि दर्ज की है, जो जटिल आरेखों के सत्यापन जैसे उच्च-दांव वाले अनुप्रयोगों में इसके महत्व को दर्शाता है। इसके अतिरिक्त, यह क्षमता मॉडल को उच्च-घनत्व वाली तालिकाओं को पार्स करने और निष्कर्षों को देखने के लिए पायथन कोड निष्पादित करने की अनुमति देती है, जिससे बहु-चरणीय दृश्य अंकगणित में होने वाली मतिभ्रम की समस्या कम होती है।

यह प्रदर्शन लाभ उत्पादन वातावरण के लिए महत्वपूर्ण है जहाँ महीन विवरणों पर सटीकता सर्वोपरि है। यह विकास जेमिनी 3 फ्लैश की गति और सामर्थ्य को उन्नत तर्क क्षमताओं के साथ जोड़ता है, जो इसे एजेंटिक वर्कफ़्लो के लिए एक शक्तिशाली विकल्प बनाता है। जबकि जेमिनी 3 प्रो जटिल कार्यों के लिए बेहतर है, फ्लैश मॉडल अपनी कम विलंबता और लागत दक्षता के कारण विलंबता-संवेदनशील अनुभवों के लिए पसंदीदा विकल्प बन गया है, जैसा कि जेटब्रेन्स और कर्सर जैसी संस्थाओं द्वारा उल्लेख किया गया है।

एजेंटिक विजन की यह नई परत, जो पायथन कोड निष्पादन को एकीकृत करती है, जेमिनी 3 फ्लैश को केवल वर्णन करने के बजाय छवियों के साथ सक्रिय रूप से बातचीत करने की अनुमति देती है, जैसे कि उंगलियों पर अंकों की गिनती के लिए बाउंडिंग बॉक्स खींचना। गूगल एआई स्टूडियो और वर्टेक्स एआई के माध्यम से डेवलपर्स के लिए यह क्षमता वर्तमान में उपलब्ध है। भविष्य की योजनाओं में निहित कोड-संचालित व्यवहारों को जोड़ना और एजेंटिक विजन को फ्लैश से परे अन्य जेमिनी मॉडल आकारों तक विस्तारित करना शामिल है।

2 दृश्य

स्रोतों

  • MarkTechPost

  • Edge AI and Vision Alliance

  • The Keyword

  • r/singularity - Reddit

  • The Neuron

  • PlanCheckSolver

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।