Google發布Gemini 2.5電腦操作模型 賦予數位代理人視覺化互動新能力

编辑者: Veronika Radoslavskaya

數位自動化領域於西元2025年10月7日迎來重大技術進展,Google正式發表專為電腦操作而設計的Gemini 2.5 Computer Use模型。此項創新旨在賦予人工智慧代理人(Agent)直接與使用者介面(UI)深度互動的能力,突破了傳統僅能透過結構化API進行操作的限制。該模型建立在Gemini 2.5 Pro強大的視覺理解與推理核心能力之上,使代理人能夠「看見」螢幕內容,並模仿人類執行點擊、文字輸入、捲動等操作,從而順利完成網頁瀏覽、表單填寫與提交等複雜數位流程。Google DeepMind團隊的這項成果,標誌著數位工作流程自動化正邁向一個更具適應性與直覺性的新階段。

Gemini 2.5 Computer Use的運作核心是一個持續的循環機制:首先,系統接收使用者的任務請求、當前環境的螢幕截圖,以及過往動作的紀錄作為輸入。接著,模型進行分析,生成代表特定UI操作(如點擊或輸入)的函數呼叫。客戶端程式碼隨後執行此動作,並將新的介面狀態截圖回傳給模型,從而重啟循環,直到任務達成或系統判斷終止。這種即時的視覺回饋與行動修正能力,展現了代理人對數位環境的深刻掌握。

在性能表現方面,Google強調Gemini 2.5 Computer Use在多項網頁與行動控制基準測試中,超越了現有的替代方案,並達成了更低的延遲。例如,在Browserbase的Online-Mind2Web測試中,該模型展現了領先的準確性,並且在AndroidWorld行動介面控制測試中也展現出強勁的潛力,儘管目前主要優化方向仍是網頁瀏覽器。 早期採用者,如Poke.com的團隊,回報指出該模型在速度上比競爭對手快了約50%,在處理複雜情境的上下文解析上,性能提升高達18%。

此項技術的廣泛應用前景,在於它能將過去需要人工介入的重複性或高視覺依賴性任務,轉化為可自動執行的流程。例如,在Google內部,該模型已應用於介面測試,能夠恢復高達70%的測試運行故障。開發者現已能透過Google AI Studio和Vertex AI平台上的Gemini API存取此預覽版模型,開始建構能夠安全、高效執行複雜數位任務的下一代代理人。Google DeepMind同時強調了安全性的重要性,內建了多層保護機制,包括執行前檢查和允許開發者設定敏感操作需要使用者確認,以應對AI代理人控制電腦所帶來的潛在風險。

來源

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

发现错误或不准确的地方吗?

我们会尽快处理您的评论。