7 жовтня 2025 року Google представила значне досягнення в цифровій взаємодії, запустивши модель Gemini 2.5 Computer Use. Цей спеціалізований штучний інтелект, побудований на передових можливостях візуального сприйняття та міркування Gemini 2.5 Pro, спеціально розроблений для освоєння складнощів користувацьких інтерфейсів (UI), що дозволяє йому імітувати людську навігацію в різноманітних цифрових середовищах.
Основний робочий цикл цієї інновації, розробленої Google та Google DeepMind, включає безперервну петлю: отримання вказівки користувача, аналіз поточного знімка екрана середовища, формування точної дії в інтерфейсі, такої як клік або введення тексту, виконання цієї дії, а потім повторна оцінка результату. Цей метод виходить за рамки обмежень, що накладаються структурованими API, надаючи агентам можливість природно керувати складними візуальними завданнями. До таких завдань належать точне заповнення складних форм, маніпулювання фільтрами та безпечна робота за необхідними порталами входу.
Модель вже доступна для розробників для створення складних інструментів автоматизації в режимі публічного попереднього перегляду через Gemini API на платформах Google AI Studio та Vertex AI. Особливу увагу було приділено досягненню низької затримки та високої продуктивності в контрольних тестах (бенчмарках), що позиціонує модель як потужний каталізатор для оптимізації робочих процесів, які є повторюваними або візуально складними.
У порівняльних оцінках модель Gemini 2.5 Computer Use продемонструвала беззаперечне лідерство над існуючими альтернативами в тестах керування вебом та мобільними пристроями, показавши перевагу в ключових бенчмарках, таких як Online-Mind2Web, WebVoyager та AndroidWorld. Зокрема, вона досягла провідного показника якості в 65,7% у керуванні браузером в середовищі Browserbase для Online-Mind2Web, перевершивши своїх конкурентів. За оцінками, вона також перевершує Claude Sonnet 4.5 у певних тестах. Незалежні оцінки також визначають її як найточнішу та найшвидшу публічну модель ШІ для простих завдань автоматизації браузера.
Хоча основна оптимізація зосереджена на веббраузерах, модель демонструє обнадійливий потенціал для завдань керування мобільним інтерфейсом, однак повне вдосконалення для контролю на рівні операційної системи визначено як напрямок для майбутніх розробок. Цей новий інструмент дає змогу розробникам створювати агентів, здатних переміщатися цифровими просторами з безпрецедентним рівнем автономності, відкриваючи таким чином нові шляхи для цифрової допомоги та операційної ефективності. У самій компанії Google модель вже використовується, наприклад, у тестуванні інтерфейсів, де вона здатна усувати до 70% збоїв під час тестових запусків. Впровадження такого інструменту відкриває горизонти для автоматизації рутинних процесів, від навігації вебсайтами до перенесення даних між системами, як це було продемонстровано на прикладі перенесення інформації про домашніх тварин до CRM-системи. Google інтегрувала запобіжні механізми та можливість підтвердження користувачем важливих дій, заохочуючи відповідальний підхід до розгортання цієї потужної нової можливості.