Компания Google представила модель Gemini 2.5 Computer Use, которая знаменует собой новый этап в развитии искусственного интеллекта, фокусируясь на глубоком имитировании человеческих действий в цифровой среде. Презентация этой разработки состоялась 7 октября 2025 года. Инновация базируется на передовых возможностях визуального восприятия и логического анализа флагманской модели Gemini 2.5 Pro.
Суть работы Gemini 2.5 Computer Use заключается в циклическом процессе: агент получает запрос, анализирует текущий скриншот интерфейса, генерирует соответствующее действие — например, клик или ввод данных — выполняет его, а затем повторяет цикл с новым изображением экрана до полного завершения задачи. Модель использует усовершенствованную систему визуального анализа, способную распознавать элементы интерфейса на изображениях с высоким разрешением, а не только по HTML-коду страницы. Для выбора нужных действий применяется специальный модуль Action Transformer, обученный на миллиардах примеров взаимодействия человека с экраном. Алгоритм работы строится по принципу visual reasoning loop — модель не просто реагирует на изображение, а прогнозирует результат каждого шага перед его выполнением, что делает её взаимодействие с интерфейсом более осмысленным. Этот подход позволяет ИИ оперировать непосредственно с графической оболочкой, будь то веб-сайт или мобильное приложение, в отличие от традиционного использования API. Google, в частности подразделение Google DeepMind, позиционирует эту модель как значительный прорыв в создании по-настоящему автономных цифровых помощников.
Модель уже доступна для интеграции и тестирования разработчиками через API Gemini в Google AI Studio и Vertex AI. Gemini 2.5 Computer Use демонстрирует превосходство над существующими аналогами в ключевых бенчмарках, таких как Online-Mind2Web, WebVoyager и AndroidWorld, обеспечивая при этом более низкую задержку при выполнении команд. По оценкам, она превосходит Claude Sonnet 4.5 в определенных тестах.
Внутри самой Google модель уже находит применение, например, в тестировании интерфейсов, где она способна восстанавливать до 70% сбоев в тестовых прогонах. Внедрение такого инструмента открывает горизонты для автоматизации рутинных процессов, от навигации по сайтам до переноса данных между системами, как было продемонстрировано при переносе информации о домашних животных в CRM-систему. Google заявляет о встроенных механизмах защиты: критически важные действия, такие как подтверждение платежей, требуют явного одобрения пользователя, что подчеркивает важность сохранения контроля над ключевыми операциями.