Google DeepMind Ujawnia Gemini 2.5 Computer Use: Nowa Era Interakcji Agentów z Interfejsem Użytkownika

11:23, 09 października

Edytowane przez: Veronika Radoslavskaya

7 października 2025 roku Google, we współpracy z Google DeepMind, zaprezentowało model Gemini 2.5 Computer Use, co stanowi istotny krok w kierunku tworzenia w pełni autonomicznych agentów cyfrowych. Ten specjalistyczny model sztucznej inteligencji został zaprojektowany do precyzyjnej interakcji z graficznymi interfejsami użytkownika (UI), umożliwiając zadania takie jak przeglądanie zasobów sieciowych, aktywowanie przycisków czy wypełnianie formularzy cyfrowych. Oparcie na zaawansowanych zdolnościach wizualnego pojmowania i rozumowania modelu Gemini 2.5 Pro pozwala na budowanie agentów naśladujących ludzkie działania w przestrzeni cyfrowej.

Model ten adresuje kluczową lukę w automatyzacji, gdzie tradycyjne, ustrukturyzowane interfejsy API są niewystarczające do manipulacji elementami graficznymi. Gemini 2.5 Computer Use wykazuje wyższą jakość kontroli przeglądarki przy najniższych opóźnieniach, przewyższając konkurencyjne rozwiązania w licznych testach kontroli sieciowej i mobilnej. Mechanizm działania opiera się na ciągłym cyklu: otrzymanie polecenia, analiza zrzutu ekranu interfejsu, wygenerowanie operacji UI, jej wykonanie, a następnie powtórzenie procesu aż do finalizacji zadania. Choć optymalizowany głównie dla przeglądarek internetowych, model ten wykazuje obiecujące rezultaty w zadaniach kontroli UI na urządzeniach mobilnych, co potwierdzają testy w ramach benchmarku AndroidWorld.

Dostępność dla deweloperów jest natychmiastowa, co sprzyja szybkiemu wdrażaniu i testowaniu możliwości tego narzędzia. Możliwości te udostępniono poprzez interfejs API Gemini w platformach Google AI Studio oraz Vertex AI, co pozwala na tworzenie asystentów i narzędzi do automatyzacji złożonych przepływów pracy.

Wewnątrz samego Google model znajduje już zastosowanie, na przykład w testowaniu interfejsów, gdzie jest w stanie odzyskać do 70% błędów w przebiegach testowych. Wdrożenie takiego narzędzia otwiera horyzonty dla automatyzacji rutynowych procesów, od nawigacji po stronach internetowych po przenoszenie danych między systemami, jak zademonstrowano podczas przenoszenia informacji o zwierzętach domowych do systemu CRM. Google deklaruje wbudowane mechanizmy ochrony: krytyczne działania, takie jak potwierdzanie płatności, wymagają wyraźnej zgody użytkownika, co podkreśla znaczenie zachowania kontroli nad kluczowymi operacjami.

Wprowadzenie Gemini 2.5 Computer Use to zaproszenie do redefinicji sposobu powierzania zadań maszynom. Zamiast koncentrować się na obawach związanych z automatyzacją, można dostrzec szansę na uwolnienie ludzkiego potencjału od powtarzalnych, wizualnych zadań. Proces ten, wymagający precyzyjnego rozumienia kontekstu i sekwencji wizualnej, odzwierciedla dążenie do harmonijnego współistnienia ludzkiej intencji i cyfrowego wykonania, gdzie każdy krok agenta jest odzwierciedleniem jasno postawionego celu.

33 Wyświetlenia

Źródła

El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

Przeczytaj więcej wiadomości na ten temat:

24 listopada

ChatGPT Wprowadza Nowego Agenta Badań Zakupowych: Personalizowane Przewodniki Zakupowe

21 listopada

Perplexity Comet, przeglądarka natywna dla AI, trafia wreszcie na Androida

19 listopada

Google Prezentuje Gemini 3: Najnowszy Model AI Natychmiast Zintegrowany z Wyszukiwarką

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.

Centrum powiadomień

Centrum powiadomień

Google DeepMind Ujawnia Gemini 2.5 Computer Use: Nowa Era Interakcji Agentów z Interfejsem Użytkownika

Źródła

Przeczytaj więcej wiadomości na ten temat: