7 października 2025 roku Google, we współpracy z Google DeepMind, zaprezentowało model Gemini 2.5 Computer Use, co stanowi istotny krok w kierunku tworzenia w pełni autonomicznych agentów cyfrowych. Ten specjalistyczny model sztucznej inteligencji został zaprojektowany do precyzyjnej interakcji z graficznymi interfejsami użytkownika (UI), umożliwiając zadania takie jak przeglądanie zasobów sieciowych, aktywowanie przycisków czy wypełnianie formularzy cyfrowych. Oparcie na zaawansowanych zdolnościach wizualnego pojmowania i rozumowania modelu Gemini 2.5 Pro pozwala na budowanie agentów naśladujących ludzkie działania w przestrzeni cyfrowej.
Model ten adresuje kluczową lukę w automatyzacji, gdzie tradycyjne, ustrukturyzowane interfejsy API są niewystarczające do manipulacji elementami graficznymi. Gemini 2.5 Computer Use wykazuje wyższą jakość kontroli przeglądarki przy najniższych opóźnieniach, przewyższając konkurencyjne rozwiązania w licznych testach kontroli sieciowej i mobilnej. Mechanizm działania opiera się na ciągłym cyklu: otrzymanie polecenia, analiza zrzutu ekranu interfejsu, wygenerowanie operacji UI, jej wykonanie, a następnie powtórzenie procesu aż do finalizacji zadania. Choć optymalizowany głównie dla przeglądarek internetowych, model ten wykazuje obiecujące rezultaty w zadaniach kontroli UI na urządzeniach mobilnych, co potwierdzają testy w ramach benchmarku AndroidWorld.
Dostępność dla deweloperów jest natychmiastowa, co sprzyja szybkiemu wdrażaniu i testowaniu możliwości tego narzędzia. Możliwości te udostępniono poprzez interfejs API Gemini w platformach Google AI Studio oraz Vertex AI, co pozwala na tworzenie asystentów i narzędzi do automatyzacji złożonych przepływów pracy.
Wewnątrz samego Google model znajduje już zastosowanie, na przykład w testowaniu interfejsów, gdzie jest w stanie odzyskać do 70% błędów w przebiegach testowych. Wdrożenie takiego narzędzia otwiera horyzonty dla automatyzacji rutynowych procesów, od nawigacji po stronach internetowych po przenoszenie danych między systemami, jak zademonstrowano podczas przenoszenia informacji o zwierzętach domowych do systemu CRM. Google deklaruje wbudowane mechanizmy ochrony: krytyczne działania, takie jak potwierdzanie płatności, wymagają wyraźnej zgody użytkownika, co podkreśla znaczenie zachowania kontroli nad kluczowymi operacjami.
Wprowadzenie Gemini 2.5 Computer Use to zaproszenie do redefinicji sposobu powierzania zadań maszynom. Zamiast koncentrować się na obawach związanych z automatyzacją, można dostrzec szansę na uwolnienie ludzkiego potencjału od powtarzalnych, wizualnych zadań. Proces ten, wymagający precyzyjnego rozumienia kontekstu i sekwencji wizualnej, odzwierciedla dążenie do harmonijnego współistnienia ludzkiej intencji i cyfrowego wykonania, gdzie każdy krok agenta jest odzwierciedleniem jasno postawionego celu.