A Google, através da sua divisão Google DeepMind, anunciou em 7 de outubro de 2025 o lançamento do Gemini 2.5 Computer Use, um modelo de inteligência artificial especializado na interação direta com interfaces de usuário digitais. Este avanço tecnológico visa estabelecer uma nova fronteira na automação, permitindo que agentes de software executem tarefas complexas que historicamente exigiam intervenção humana, como navegar em websites, interagir com elementos visuais e preencher formulários extensos.
A tecnologia baseia-se na capacidade de raciocínio visual do Gemini 2.5 Pro. O agente opera num ciclo responsivo contínuo: recebe o pedido do utilizador, avalia a imagem da interface atual, formula a ação de interface mais apropriada, executa-a e repete o processo até que a tarefa designada seja concluída. Este desenvolvimento posiciona a Google na vanguarda do controle de sistemas operacionais e navegadores, com relatos indicando um desempenho superior em benchmarks chave como Online-Mind2Web, WebVoyager e AndroidWorld, notavelmente caracterizado por uma latência reduzida em comparação com alternativas. Estima-se que supere o Claude Sonnet 4.5 em certos testes.
A disponibilidade imediata para a comunidade de desenvolvedores, por meio das plataformas Google AI Studio e Vertex AI, convida à experimentação e integração prática. Este modelo é um catalisador para redefinir rotinas digitais, transformando tarefas repetitivas em oportunidades para o foco humano em atividades de maior valor estratégico. Dentro da própria Google, o modelo já é utilizado, por exemplo, no teste de interfaces, onde é capaz de recuperar até 70% das falhas em execuções de teste. A promessa reside na criação de um ecossistema de agentes digitais mais autônomos e confiáveis.
A capacidade do agente de IA de compreender o contexto visual da tela, em vez de depender apenas de comandos de código rígidos, confere-lhe uma adaptabilidade notável a interfaces em constante mutação. Especialistas destacam que a baixa latência é crucial para manter a fluidez e a confiança do utilizador em interações em tempo real.