Google Lanza Gemini 2.5 Computer Use: Un Avance en la Automatización Visual Inteligente

Editado por: Veronika Radoslavskaya

El panorama de la inteligencia artificial ha experimentado una transformación significativa con el anuncio oficial de Google sobre su modelo Gemini 2.5 Computer Use. Este hito, revelado el 7 de octubre de 2025, introduce una IA diseñada específicamente para interactuar con interfaces de usuario (UI), emulando acciones humanas en entornos digitales, desde la navegación web hasta la manipulación de formularios y la activación de botones. Este desarrollo se sustenta en las sólidas capacidades de razonamiento y comprensión visual de Gemini 2.5 Pro, posicionándose como una herramienta clave para la próxima generación de agentes digitales autónomos.

La funcionalidad central de este sistema se basa en un ciclo adaptativo y continuo: el agente recibe la instrucción del usuario, examina la representación visual de la pantalla, formula la acción de interfaz de usuario más apropiada y la ejecuta, repitiendo el proceso hasta completar la tarea encomendada. La colaboración entre Google y Google DeepMind ha sido esencial en la materialización de esta tecnología. La promesa subyacente es una automatización que supera las limitaciones de los scripts fijos, al poder manejar la complejidad visual del entorno digital. El modelo ha demostrado un rendimiento superior en pruebas de control web y móvil, destacando por su baja latencia, lo que sugiere una optimización práctica para flujos de trabajo digitales que requieren rapidez y exactitud. Supera a los análogos existentes en benchmarks clave como Online-Mind2Web, WebVoyager y AndroidWorld, y se estima que supera a Claude Sonnet 4.5 en ciertas pruebas.

La disponibilidad del modelo a través de las plataformas Google AI Studio y Vertex AI ofrece una vía directa para que los desarrolladores comiencen a experimentar y desplegar agentes con capacidades avanzadas de control de interfaz. Este avance se percibe como un catalizador para reevaluar la interacción humano-máquina, enfocándose en liberar el potencial humano de las tareas mecánicas y repetitivas. Dentro de Google, el modelo ya se utiliza en pruebas de interfaz, donde es capaz de recuperar hasta el 70% de los fallos en las ejecuciones de prueba. Al delegar la interacción visual compleja a estos agentes, las personas pueden concentrar su energía en la estrategia, la toma de decisiones y la creación que requieren intuición y conciencia.

La comunidad tecnológica ya está evaluando cómo esta capacidad de control visual se compara con sistemas preexistentes. Barreras previas en agentes de IA para control de UI, como la fragilidad ante cambios inesperados en el diseño de aplicaciones o sitios web, parecen ser abordadas por Gemini 2.5 Computer Use. El modelo ha sido optimizado principalmente para navegadores web, aunque también muestra potencial en el control de UI móvil. Este progreso tecnológico marca un avance significativo en la fiabilidad de la automatización, reestructurando nuestras interacciones y elevando el estándar de lo posible en el entorno digital.

Fuentes

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.