Google發布Gemini 3 Deep Think重大升級 專注科學與工程深度推理
编辑者: Veronika Radoslavskaya
Google於2026年2月12日正式推出其專業推理模型Gemini 3 Deep Think的重大升級版本,此舉標誌著人工智慧發展策略從通用型應用轉向專精於高階科學研究與工程難題的解決。此次更新的核心目標是將AI的推理能力從純粹的理論探討,深化至能實際推動現實世界應用的層面,特別是針對那些缺乏明確指導方針或數據不完整的複雜挑戰。
此次升級的開發過程強調與頂尖科學家及研究人員的緊密協作,旨在打造一個能夠真正對其知識進行深度推理的數位協作夥伴。Gemini 3 Deep Think的關鍵能力體現於其能透過程式碼對複雜的物理系統進行建模,精準解讀混亂且非結構化的數據集,甚至能將初步的草圖轉化為可直接進行3D列印的檔案。
在嚴苛的學術與技術基準測試中,新版Deep Think展現了業界領先的性能,確立了新的行業標竿。該模型在「人類的最後考試」(Humanity's Last Exam, HLE)中取得了48.4%的成績(無工具),並在ARC-AGI-2基準測試中獲得了經ARC Prize Foundation驗證的84.6%高分。此外,其在Codeforces競技編程平台上的Elo評分為3455,同時在2025年國際數學奧林匹克競賽中達到了金牌級別的表現,顯示其在數學和邏輯推演上的卓越能力。
在更專業的科學領域,Gemini 3 Deep Think在研究生級別的科學推理基準GPQA Diamond測試中取得了領先的93.8%成績,並在理論物理的CMT-Benchmark中獲得了50.5%的成果。這些數據的發布,使Google在與OpenAI的o1系列及Anthropic的Claude等競爭對手中,於高階推理領域確立了顯著的領先地位。
該模型的實用性已在學術界獲得初步驗證。例如,Rutgers大學的數學家Lisa Carbone利用此模型成功識別出一篇高度專業的數學技術論文中,先前未被人類同行審查發現的細微邏輯謬誤。另外,Duke大學Wang Lab的研究人員,包括Haozhe “Harry” Wang,已成功運用此模型來優化半導體晶體生長的方法,將AI的應用從理論推向了材料科學的實際製造環節。
Google的戰略意圖十分明確,即將此深度推理能力嵌入到工業級應用與企業工作流程中。此次升級已向Google AI Ultra的訂閱用戶開放,同時也透過Gemini API向特定的外部研究機構和工程團隊提供早期訪問權限。這種擴大可用性的舉措,被視為Google意圖將Deep Think定位為高階科學與工程工作流程的關鍵基礎設施。
總體而言,Gemini 3 Deep Think的發布代表了AI發展的一個重要轉折點,即從單純的知識檢索轉向更深層次的、類人的審慎思考與問題解決能力。這種能力被定位為科學家的「力量倍增器」,旨在加速知識的發現與工程的創新。
17 浏览量
來源
Hipertextual
Techgear.gr
Google Blog
A new era of intelligence with Gemini 3 - Google Blog
Gemini 3 Deep Think gets 'major upgrade' aimed at practical applications - 9to5Google
Gemini 3 Deep Think: Advancing science, research and engineering - Google Blog
Get higher access to advanced AI in Google Workspace
Google upgrades Gemini 3 Deep Think across science, coding, research, and engineering | Seeking Alpha
9to5Google
Google
9to5Google
Wikipedia
閱讀更多有關此主題的新聞:
发现错误或不准确的地方吗?我们会尽快处理您的评论。
