谷歌发布Gemini 2.5 Computer Use:AI代理迈入视觉交互新纪元

编辑者: Veronika Radoslavskaya

谷歌,特别是其Google DeepMind部门,于2025年10月7日正式揭晓了其专为计算机操作设计的全新人工智能模型——Gemini 2.5 Computer Use。此次发布标志着人工智能技术从纯粹的数据处理能力,向对复杂数字环境的直接、自主干预迈进,为构建高度智能化的数字代理奠定了关键基础。该模型依托于Gemini 2.5 Pro强大的视觉理解与逻辑推理核心能力,其主要目标是模拟人类在用户界面(UI)上的自然交互行为。

Gemini 2.5 Computer Use的核心价值在于其对图形用户界面(GUI)的精细化掌控。它能够识别屏幕上的元素,并执行包括点击、文本输入和滚动在内的多达13种浏览器操作。这项能力使其能够高效处理那些缺乏标准应用程序编程接口(API)支持的网页任务,例如自动化数据录入、执行复杂的商品筛选流程,乃至整理跨页面的数字信息。其工作机制体现了一种精妙的迭代循环:接收用户指令后,模型首先分析当前界面的截图,随后生成并执行一个UI动作响应,接着根据新的界面状态重复此过程,直至任务圆满完成。

在性能衡量方面,谷歌的这项创新展现出卓越的竞争力。通过Browserbase的Online-Mind2Web、WebVoyager和AndroidWorld等一系列行业基准测试,Gemini 2.5 Computer Use在网页和移动端控制任务中均取得了领先地位,尤其在响应速度方面,其延迟表现被业界视为树立了新的标杆。这种对速度的优化,意味着数字代理的决策与执行将更加迅捷,更贴近即时的人类反应,为自动化办公和用户界面测试等领域带来了效率的飞跃。在谷歌内部,该模型已应用于界面测试,能够恢复高达70%的测试运行故障。据评估,在某些测试中,它超越了Claude Sonnet 4.5。

目前,该模型的预览版已通过Google AI Studio和Vertex AI平台上的Gemini API向开发者开放,允许他们立即着手构建和测试下一代自动化代理。谷歌的这一布局旨在为开发者提供一个即时可用的强大工具集,体现了对加速创新应用的期许,也预示着谷歌在推动人工智能操作层面的战略部署正在加速,与业界其他前沿力量的竞争格局也随之更加引人注目。

值得注意的是,尽管该模型专注于浏览器环境的精细控制,目前尚未扩展至桌面系统级的操作。谷歌已将风险规避理念深度植入模型训练之中,内置了多重安全机制和开发者管控工具,以有效防止诸如绕过验证码或执行高风险操作等潜在的滥用行为。这种对安全边界的审慎考量,确保了技术在推动效率提升的同时,能够稳健地服务于构建更可靠、更具责任感的数字助手。

来源

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。