Gemini 2.5 Computer Use: ИИ управляющий компьютером и выполняющий действия на экране

Отредактировано: Veronika Radoslavskaya

Компания Google представила модель Gemini 2.5 Computer Use, которая знаменует собой новый этап в развитии искусственного интеллекта, фокусируясь на глубоком имитировании человеческих действий в цифровой среде. Презентация этой разработки состоялась 7 октября 2025 года. Инновация базируется на передовых возможностях визуального восприятия и логического анализа флагманской модели Gemini 2.5 Pro.

Суть работы Gemini 2.5 Computer Use заключается в циклическом процессе: агент получает запрос, анализирует текущий скриншот интерфейса, генерирует соответствующее действие — например, клик или ввод данных — выполняет его, а затем повторяет цикл с новым изображением экрана до полного завершения задачи. Модель использует усовершенствованную систему визуального анализа, способную распознавать элементы интерфейса на изображениях с высоким разрешением, а не только по HTML-коду страницы. Для выбора нужных действий применяется специальный модуль Action Transformer, обученный на миллиардах примеров взаимодействия человека с экраном. Алгоритм работы строится по принципу visual reasoning loop — модель не просто реагирует на изображение, а прогнозирует результат каждого шага перед его выполнением, что делает её взаимодействие с интерфейсом более осмысленным. Этот подход позволяет ИИ оперировать непосредственно с графической оболочкой, будь то веб-сайт или мобильное приложение, в отличие от традиционного использования API. Google, в частности подразделение Google DeepMind, позиционирует эту модель как значительный прорыв в создании по-настоящему автономных цифровых помощников.

Модель уже доступна для интеграции и тестирования разработчиками через API Gemini в Google AI Studio и Vertex AI. Gemini 2.5 Computer Use демонстрирует превосходство над существующими аналогами в ключевых бенчмарках, таких как Online-Mind2Web, WebVoyager и AndroidWorld, обеспечивая при этом более низкую задержку при выполнении команд. По оценкам, она превосходит Claude Sonnet 4.5 в определенных тестах.

Внутри самой Google модель уже находит применение, например, в тестировании интерфейсов, где она способна восстанавливать до 70% сбоев в тестовых прогонах. Внедрение такого инструмента открывает горизонты для автоматизации рутинных процессов, от навигации по сайтам до переноса данных между системами, как было продемонстрировано при переносе информации о домашних животных в CRM-систему. Google заявляет о встроенных механизмах защиты: критически важные действия, такие как подтверждение платежей, требуют явного одобрения пользователя, что подчеркивает важность сохранения контроля над ключевыми операциями.

Источники

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.