Gemini 2.5 Computer Use: ИИ управляющий компьютером и выполняющий действия на экране
Отредактировано: Veronika Radoslavskaya
Компания Google представила модель Gemini 2.5 Computer Use, которая знаменует собой новый этап в развитии искусственного интеллекта, фокусируясь на глубоком имитировании человеческих действий в цифровой среде. Презентация этой разработки состоялась 7 октября 2025 года. Инновация базируется на передовых возможностях визуального восприятия и логического анализа флагманской модели Gemini 2.5 Pro.
Суть работы Gemini 2.5 Computer Use заключается в циклическом процессе: агент получает запрос, анализирует текущий скриншот интерфейса, генерирует соответствующее действие — например, клик или ввод данных — выполняет его, а затем повторяет цикл с новым изображением экрана до полного завершения задачи. Модель использует усовершенствованную систему визуального анализа, способную распознавать элементы интерфейса на изображениях с высоким разрешением, а не только по HTML-коду страницы. Для выбора нужных действий применяется специальный модуль Action Transformer, обученный на миллиардах примеров взаимодействия человека с экраном. Алгоритм работы строится по принципу visual reasoning loop — модель не просто реагирует на изображение, а прогнозирует результат каждого шага перед его выполнением, что делает её взаимодействие с интерфейсом более осмысленным. Этот подход позволяет ИИ оперировать непосредственно с графической оболочкой, будь то веб-сайт или мобильное приложение, в отличие от традиционного использования API. Google, в частности подразделение Google DeepMind, позиционирует эту модель как значительный прорыв в создании по-настоящему автономных цифровых помощников.
Модель уже доступна для интеграции и тестирования разработчиками через API Gemini в Google AI Studio и Vertex AI. Gemini 2.5 Computer Use демонстрирует превосходство над существующими аналогами в ключевых бенчмарках, таких как Online-Mind2Web, WebVoyager и AndroidWorld, обеспечивая при этом более низкую задержку при выполнении команд. По оценкам, она превосходит Claude Sonnet 4.5 в определенных тестах.
Внутри самой Google модель уже находит применение, например, в тестировании интерфейсов, где она способна восстанавливать до 70% сбоев в тестовых прогонах. Внедрение такого инструмента открывает горизонты для автоматизации рутинных процессов, от навигации по сайтам до переноса данных между системами, как было продемонстрировано при переносе информации о домашних животных в CRM-систему. Google заявляет о встроенных механизмах защиты: критически важные действия, такие как подтверждение платежей, требуют явного одобрения пользователя, что подчеркивает важность сохранения контроля над ключевыми операциями.
Источники
El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do
Читайте больше новостей по этой теме:
Вы нашли ошибку или неточность?
Мы учтем ваши комментарии как можно скорее.
