गूगल का जेमिनी 2.5 कंप्यूटर यूज़: डिजिटल इंटरफ़ेस पर मानव-समान नियंत्रण की नई सुबह

द्वारा संपादित: Veronika Radoslavskaya

तकनीकी जगत में एक महत्वपूर्ण मोड़ आया है, जहाँ गूगल ने 7 अक्टूबर, 2025 को अपने नए कृत्रिम बुद्धिमत्ता (AI) मॉडल, जेमिनी 2.5 कंप्यूटर यूज़, का अनावरण किया है। यह मॉडल विशेष रूप से उपयोगकर्ता इंटरफ़ेस (UI) के साथ संवाद करने के लिए तैयार किया गया है, जो वेबसाइटों को ब्राउज़ करने, बटनों पर क्लिक करने और फॉर्म भरने जैसे कार्यों को मानवीय ढंग से करने की क्षमता रखता है। यह नवाचार डिजिटल स्वचालन के क्षेत्र में एक नई दिशा का संकेत देता है, जहाँ मशीनों की पहुँच केवल संरचित डेटा से आगे बढ़कर दृश्य और क्रियात्मक दुनिया तक हो गई है।

यह विशेष AI उपकरण जेमिनी 2.5 प्रो की उन्नत दृश्य समझ और तर्क क्षमताओं पर आधारित है। गूगल डीपमाइंड द्वारा विकसित यह मॉडल, डेवलपर्स को ऐसे एजेंट बनाने की शक्ति देता है जो डिजिटल वातावरण में मनुष्यों की तरह कार्य कर सकें। इस प्रणाली का कार्य एक निरंतर चक्र में चलता है: उपयोगकर्ता का अनुरोध प्राप्त करना, स्क्रीनशॉट का विश्लेषण करना, एक UI कार्रवाई प्रतिक्रिया उत्पन्न करना, उसे निष्पादित करना, और कार्य पूरा होने तक इस प्रक्रिया को दोहराना। यह चक्र डिजिटल कार्यों को स्वचालित करने के लिए एक सहज और गतिशील ढाँचा प्रदान करता है।

इस नई पेशकश की एक प्रमुख विशेषता इसकी गति और सटीकता है। गूगल के परीक्षणों में, यह मॉडल इंटरफ़ेस परीक्षण में 70% तक की विफलताएँ ठीक करने में सक्षम है, साथ ही अन्य मॉडलों की तुलना में कम विलंबता (latency) दर्ज की है। यह Online-Mind2Web, WebVoyager और AndroidWorld जैसे प्रमुख बेंचमार्क में मौजूदा एनालॉग्स से बेहतर प्रदर्शन करता है। कुछ स्वतंत्र बेंचमार्क इसे सरल ब्राउज़र स्वचालन के लिए सबसे सटीक और तेज़ सार्वजनिक AI मॉडल के रूप में स्थान देते हैं। यह कुछ परीक्षणों में Claude Sonnet 4.5 से भी बेहतर प्रदर्शन करता है। यह प्रदर्शन जेमिनी 2.5 प्रो की दृश्य तर्क शक्ति और एक अनुकूलित API पाइपलाइन का परिणाम है।

डेवलपर्स के लिए, यह मॉडल गूगल एआई स्टूडियो और वर्टेक्स एआई प्लेटफॉर्म के माध्यम से एपीआई के रूप में सार्वजनिक पूर्वावलोकन (public preview) में उपलब्ध है। यह उपलब्धता तुरंत अपनाने और परीक्षण का मार्ग प्रशस्त करती है। गूगल ने यह भी बताया है कि इस मॉडल के संस्करण प्रोजेक्ट मैरिनर और एआई मोड की एजेंटिक क्षमताओं को भी शक्ति प्रदान कर रहे हैं। यह दर्शाता है कि यह तकनीक केवल एक अलग उत्पाद नहीं है, बल्कि गूगल के व्यापक AI पारिस्थितिकी तंत्र का एक अभिन्न अंग बन रही है।

इस तकनीक का व्यावहारिक अनुप्रयोग व्यापक है, जिसमें दोहराए जाने वाले डेटा प्रविष्टि कार्यों को स्वचालित करना, वेब अनुप्रयोगों का परीक्षण करना, और कई वेबसाइटों पर जानकारी एकत्र करना शामिल है। यह उन डिजिटल बाधाओं को दूर करने का अवसर प्रस्तुत करता है जो पहले केवल मानवीय हस्तक्षेप से ही पार की जा सकती थीं। हालाँकि, यह ध्यान रखना महत्वपूर्ण है कि यह मॉडल वर्तमान में केवल ब्राउज़र तक ही पहुँच सकता है और इसे अभी तक डेस्कटॉप OS-स्तर के नियंत्रण के लिए अनुकूलित नहीं किया गया है।

स्रोतों

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

क्या आपने कोई गलती या अशुद्धि पाई?

हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।