तकनीकी जगत में एक महत्वपूर्ण मोड़ आया है, जहाँ गूगल ने 7 अक्टूबर, 2025 को अपने नए कृत्रिम बुद्धिमत्ता (AI) मॉडल, जेमिनी 2.5 कंप्यूटर यूज़, का अनावरण किया है। यह मॉडल विशेष रूप से उपयोगकर्ता इंटरफ़ेस (UI) के साथ संवाद करने के लिए तैयार किया गया है, जो वेबसाइटों को ब्राउज़ करने, बटनों पर क्लिक करने और फॉर्म भरने जैसे कार्यों को मानवीय ढंग से करने की क्षमता रखता है। यह नवाचार डिजिटल स्वचालन के क्षेत्र में एक नई दिशा का संकेत देता है, जहाँ मशीनों की पहुँच केवल संरचित डेटा से आगे बढ़कर दृश्य और क्रियात्मक दुनिया तक हो गई है।
यह विशेष AI उपकरण जेमिनी 2.5 प्रो की उन्नत दृश्य समझ और तर्क क्षमताओं पर आधारित है। गूगल डीपमाइंड द्वारा विकसित यह मॉडल, डेवलपर्स को ऐसे एजेंट बनाने की शक्ति देता है जो डिजिटल वातावरण में मनुष्यों की तरह कार्य कर सकें। इस प्रणाली का कार्य एक निरंतर चक्र में चलता है: उपयोगकर्ता का अनुरोध प्राप्त करना, स्क्रीनशॉट का विश्लेषण करना, एक UI कार्रवाई प्रतिक्रिया उत्पन्न करना, उसे निष्पादित करना, और कार्य पूरा होने तक इस प्रक्रिया को दोहराना। यह चक्र डिजिटल कार्यों को स्वचालित करने के लिए एक सहज और गतिशील ढाँचा प्रदान करता है।
इस नई पेशकश की एक प्रमुख विशेषता इसकी गति और सटीकता है। गूगल के परीक्षणों में, यह मॉडल इंटरफ़ेस परीक्षण में 70% तक की विफलताएँ ठीक करने में सक्षम है, साथ ही अन्य मॉडलों की तुलना में कम विलंबता (latency) दर्ज की है। यह Online-Mind2Web, WebVoyager और AndroidWorld जैसे प्रमुख बेंचमार्क में मौजूदा एनालॉग्स से बेहतर प्रदर्शन करता है। कुछ स्वतंत्र बेंचमार्क इसे सरल ब्राउज़र स्वचालन के लिए सबसे सटीक और तेज़ सार्वजनिक AI मॉडल के रूप में स्थान देते हैं। यह कुछ परीक्षणों में Claude Sonnet 4.5 से भी बेहतर प्रदर्शन करता है। यह प्रदर्शन जेमिनी 2.5 प्रो की दृश्य तर्क शक्ति और एक अनुकूलित API पाइपलाइन का परिणाम है।
डेवलपर्स के लिए, यह मॉडल गूगल एआई स्टूडियो और वर्टेक्स एआई प्लेटफॉर्म के माध्यम से एपीआई के रूप में सार्वजनिक पूर्वावलोकन (public preview) में उपलब्ध है। यह उपलब्धता तुरंत अपनाने और परीक्षण का मार्ग प्रशस्त करती है। गूगल ने यह भी बताया है कि इस मॉडल के संस्करण प्रोजेक्ट मैरिनर और एआई मोड की एजेंटिक क्षमताओं को भी शक्ति प्रदान कर रहे हैं। यह दर्शाता है कि यह तकनीक केवल एक अलग उत्पाद नहीं है, बल्कि गूगल के व्यापक AI पारिस्थितिकी तंत्र का एक अभिन्न अंग बन रही है।
इस तकनीक का व्यावहारिक अनुप्रयोग व्यापक है, जिसमें दोहराए जाने वाले डेटा प्रविष्टि कार्यों को स्वचालित करना, वेब अनुप्रयोगों का परीक्षण करना, और कई वेबसाइटों पर जानकारी एकत्र करना शामिल है। यह उन डिजिटल बाधाओं को दूर करने का अवसर प्रस्तुत करता है जो पहले केवल मानवीय हस्तक्षेप से ही पार की जा सकती थीं। हालाँकि, यह ध्यान रखना महत्वपूर्ण है कि यह मॉडल वर्तमान में केवल ब्राउज़र तक ही पहुँच सकता है और इसे अभी तक डेस्कटॉप OS-स्तर के नियंत्रण के लिए अनुकूलित नहीं किया गया है।