Anthropic 推出 Claude Opus 4.5:代理程式編碼與效率樹立全新業界標竿

编辑者: Veronika Radoslavskaya

Anthropic 近期發表了其迄今為止最強大的模型 Claude Opus 4.5,此舉無疑為自主代理程式(Agent)的開發與複雜電腦任務的處理樹立了新的業界標竿。這次的發布重點在於如何在維持旗艦級效能的同時,實現代幣效率的大幅提升,從而讓頂尖性能在實際的生產工作負載中,變得更加穩定且具備成本效益。

Opus 4.5 最引人注目的核心能力,在於其處理長週期、自主性任務時展現出的卓越穩定性與韌性。過去的模型在處理多步驟推理時常顯得力不從心,但 Opus 4.5 在持續性的複雜工作流程中,無論是進行大規模的程式碼重構還是排除多系統的錯誤,其表現都顯著優化。這反映出其推理能力在深度與穩定性上達到了新的層次。舉例來說,在一個模擬的航空公司客服場景中,Opus 4.5 提出了一個非標準但完全合乎邏輯的解決方案,這個方案甚至超出了既定的測試系統的預期,起初還被系統誤判為錯誤。這種能夠靈活應對模糊情境、跳脫預設路徑解決問題的能力,標誌著其在真實世界應用上的重大突破。

對於開發人員而言,Opus 4.5 無疑樹立了一個強勁的新基準。它在衡量真實軟體工程能力的測試,例如 SWE-bench Verified 上,展現了超越以往模型的卓越表現,尤其在修復軟體錯誤方面成果斐然。更令人驚豔的是,這項技術實力還伴隨著驚人的代幣效率提升。根據 Anthropic 的官方數據,在特定高複雜度的任務中,Opus 4.5 達成與舊版 Opus 和 Sonnet 系列模型相同結果時,輸出的代幣數量最多可減少 76%。對於建構需要獨立運作的 AI 程式——即所謂的代理程式工作流程的開發者來說,這項效率的提升至關重要,它從根本上降低了延遲時間與營運成本。

為了讓使用者能夠精準掌控速度與深度之間的權衡,Anthropic 引入了「努力參數」(Effort Parameter)。此參數允許開發人員指定需要「低」努力(適用於高頻率自動化,追求最快速度與最高代幣效率)或是「高」努力(適用於複雜分析,追求最高的推理深度與周全性)。這種可調整的內部流程控制,使得企業能夠根據每項任務的具體需求與預算,精確地客製化 AI 的表現。此外,該模型維持了寬裕的 200,000 個代幣上下文視窗,這對於深度文件研究綽綽有餘。模型還優化了上下文管理機制,能夠自動總結並優先處理早期的對話歷史,確保在長時間的使用會話中,以及在與 Claude for Excel 或各種 IDE 合作夥伴的整合應用中,都能維持高度一致的效能表現。

來源

  • @businessline

  • Mint

  • Medium

  • Anthropic

  • Wikipedia

  • CNET

发现错误或不准确的地方吗?

我们会尽快处理您的评论。