Google 發表 Gemini 3，開啟「深度思考」與自主代理程式的新紀元

18:50, 18 十一月

作者： Veronika Radoslavskaya

Google 推出 Gemini 3

在生成式人工智慧浪潮席捲兩年之際，Google 正式推出了劃時代的 **Gemini 3** 模型。Google 宣稱，這項發布將徹底改變現狀，使 AI 從單純的文本預測聊天機器人，轉變為具備推理、規劃和執行能力的 AI 代理程式。Gemini 3 設有兩個主要層級：可立即使用的 **Gemini 3 Pro**，以及功能更強大的 **Gemini 3 Deep Think** 模式。後者專為解決極度複雜的問題而設計，其運作方式是在回應之前先進行縝密的「思考」。

此世代模型最引人注目的特點，在於其對「機械式推理」（mechanistic reasoning）的專注與提升。率先發布的 **Gemini 3 Pro** 展示了頂尖的推理能力，在難度極高的 **GPQA Diamond** 基準測試中，取得了 **91.9%** 的優異成績；而在未借助任何工具的情況下，於 **Humanity's Last Exam (HLE)** 測試中也達到了 **37.5%**。這項核心能力確保了模型在處理科學與數學領域的深度和細微差別時，能展現出高度的可靠性與精確度。

即將向 Ultra 訂閱用戶開放的全新 **Deep Think** 模式，則將這些界限推向了更遠的維度。專門用於應對最複雜、最具原創性的難題，Deep Think 在 **ARC-AGI-2** 評測中獲得了 **45.1%** 的分數。ARC-AGI-2 是一項嚴格的基準測試，旨在檢驗 AI 解決從未見過的邏輯謎題的能力。此外，它在 HLE 測試中的表現也提升至 **41.0%**。這種增強模式的建構目標是實現真正的問題解決，遠超越標準的資料檢索與綜合整理的範疇。

針對開發者社群，Google 伴隨這次發布推出了一個名為 **Google Antigravity** 的新平台。這個「代理程式優先」（agent-first）的開發環境，允許軟體工程師與 AI 代理程式並肩工作，且這些代理程式能直接存取終端機、瀏覽器和程式碼編輯器。這些 AI 不僅僅是自動完成一行程式碼，它們能夠自主地規劃、執行並驗證複雜的軟體任務。

Google 將此描述為實現「氛圍編程」（vibe coding）的終極工具——這是一種讓開發者專注於高層次創意意圖，而由 AI 處理實作細節的嶄新編程風格。

在消費者應用方面，Gemini 3 充分利用了其強大的**多模態**能力，以及高達 **100 萬個 token** 的龐大上下文窗口。這意味著它可以處理海量數據，相當於超過 1,500 頁的文本或完整的視訊課程內容。這使其能夠扮演個人教練的角色：舉例來說，該模型可以分析用戶匹克球比賽的影片，精確識別其姿勢中的特定缺陷，並生成客製化的訓練計畫。對於學生而言，Gemini 3 能夠消化學術論文或冗長的視訊教學，並生成互動式的學習輔助工具，例如**抽認卡**（flashcards）或**視覺化圖表**，幫助他們精通學習材料。此外，它還具備將手寫食譜辨識並轉換為數位格式的實用功能。

Google 同時宣稱在業界排行榜上佔據了主導地位。**Gemini 3 Pro** 在 **LMArena** 上已奪得榜首，這是一個由用戶匿名評分 AI 模型的眾包基準測試網站，其 Elo 分數達到了 1501 分。該模型迅速登上頂峰，延續了其前身 Gemini 2.5 Pro 的傳奇，後者曾長期佔據這個競爭激烈的排名。目前，該模型正逐步整合到 Google 的生態系統中，包括 Gemini 應用程式、Vertex AI，以及 Google 搜尋中新增的「AI 模式」，後者能夠即時生成互動式模擬。雖然「Deep Think」模式仍在進行最終的安全檢查，但核心的 Gemini 3 Pro 模型已於今日上線，這標誌著 Google 準備將「代理式」AI 交到數百萬用戶手中。

Gemini