谷歌发布Gemini 2.5 Computer Use:AI代理迈入视觉交互新纪元
编辑者: Veronika Radoslavskaya
谷歌,特别是其Google DeepMind部门,于2025年10月7日正式揭晓了其专为计算机操作设计的全新人工智能模型——Gemini 2.5 Computer Use。此次发布标志着人工智能技术从纯粹的数据处理能力,向对复杂数字环境的直接、自主干预迈进,为构建高度智能化的数字代理奠定了关键基础。该模型依托于Gemini 2.5 Pro强大的视觉理解与逻辑推理核心能力,其主要目标是模拟人类在用户界面(UI)上的自然交互行为。
Gemini 2.5 Computer Use的核心价值在于其对图形用户界面(GUI)的精细化掌控。它能够识别屏幕上的元素,并执行包括点击、文本输入和滚动在内的多达13种浏览器操作。这项能力使其能够高效处理那些缺乏标准应用程序编程接口(API)支持的网页任务,例如自动化数据录入、执行复杂的商品筛选流程,乃至整理跨页面的数字信息。其工作机制体现了一种精妙的迭代循环:接收用户指令后,模型首先分析当前界面的截图,随后生成并执行一个UI动作响应,接着根据新的界面状态重复此过程,直至任务圆满完成。
在性能衡量方面,谷歌的这项创新展现出卓越的竞争力。通过Browserbase的Online-Mind2Web、WebVoyager和AndroidWorld等一系列行业基准测试,Gemini 2.5 Computer Use在网页和移动端控制任务中均取得了领先地位,尤其在响应速度方面,其延迟表现被业界视为树立了新的标杆。这种对速度的优化,意味着数字代理的决策与执行将更加迅捷,更贴近即时的人类反应,为自动化办公和用户界面测试等领域带来了效率的飞跃。在谷歌内部,该模型已应用于界面测试,能够恢复高达70%的测试运行故障。据评估,在某些测试中,它超越了Claude Sonnet 4.5。
目前,该模型的预览版已通过Google AI Studio和Vertex AI平台上的Gemini API向开发者开放,允许他们立即着手构建和测试下一代自动化代理。谷歌的这一布局旨在为开发者提供一个即时可用的强大工具集,体现了对加速创新应用的期许,也预示着谷歌在推动人工智能操作层面的战略部署正在加速,与业界其他前沿力量的竞争格局也随之更加引人注目。
值得注意的是,尽管该模型专注于浏览器环境的精细控制,目前尚未扩展至桌面系统级的操作。谷歌已将风险规避理念深度植入模型训练之中,内置了多重安全机制和开发者管控工具,以有效防止诸如绕过验证码或执行高风险操作等潜在的滥用行为。这种对安全边界的审慎考量,确保了技术在推动效率提升的同时,能够稳健地服务于构建更可靠、更具责任感的数字助手。
来源
El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do
阅读更多关于该主题的新闻:
你发现了错误或不准确的地方吗?
我们会尽快考虑您的意见。
