Anthropic 推出 Claude Opus 4.5：代理程式編碼與效率樹立全新業界標竿

15:56, 25 十一月

编辑者： Veronika Radoslavskaya

iframe { display: none; }

Anthropic 推出 Claude Opus 4.5：代理程式編碼與效率樹立全新業界標竿

Anthropic 近期發表了其迄今為止最強大的模型 Claude Opus 4.5，此舉無疑為自主代理程式（Agent）的開發與複雜電腦任務的處理樹立了新的業界標竿。這次的發布重點在於如何在維持旗艦級效能的同時，實現代幣效率的大幅提升，從而讓頂尖性能在實際的生產工作負載中，變得更加穩定且具備成本效益。

iframe { display: none; }

Opus 4.5 最引人注目的核心能力，在於其處理長週期、自主性任務時展現出的卓越穩定性與韌性。過去的模型在處理多步驟推理時常顯得力不從心，但 Opus 4.5 在持續性的複雜工作流程中，無論是進行大規模的程式碼重構還是排除多系統的錯誤，其表現都顯著優化。這反映出其推理能力在深度與穩定性上達到了新的層次。舉例來說，在一個模擬的航空公司客服場景中，Opus 4.5 提出了一個非標準但完全合乎邏輯的解決方案，這個方案甚至超出了既定的測試系統的預期，起初還被系統誤判為錯誤。這種能夠靈活應對模糊情境、跳脫預設路徑解決問題的能力，標誌著其在真實世界應用上的重大突破。

iframe { display: none; }

對於開發人員而言，Opus 4.5 無疑樹立了一個強勁的新基準。它在衡量真實軟體工程能力的測試，例如 SWE-bench Verified 上，展現了超越以往模型的卓越表現，尤其在修復軟體錯誤方面成果斐然。更令人驚豔的是，這項技術實力還伴隨著驚人的代幣效率提升。根據 Anthropic 的官方數據，在特定高複雜度的任務中，Opus 4.5 達成與舊版 Opus 和 Sonnet 系列模型相同結果時，輸出的代幣數量最多可減少 76%。對於建構需要獨立運作的 AI 程式——即所謂的代理程式工作流程的開發者來說，這項效率的提升至關重要，它從根本上降低了延遲時間與營運成本。

為了讓使用者能夠精準掌控速度與深度之間的權衡，Anthropic 引入了「努力參數」（Effort Parameter）。此參數允許開發人員指定需要「低」努力（適用於高頻率自動化，追求最快速度與最高代幣效率）或是「高」努力（適用於複雜分析，追求最高的推理深度與周全性）。這種可調整的內部流程控制，使得企業能夠根據每項任務的具體需求與預算，精確地客製化 AI 的表現。此外，該模型維持了寬裕的 200,000 個代幣上下文視窗，這對於深度文件研究綽綽有餘。模型還優化了上下文管理機制，能夠自動總結並優先處理早期的對話歷史，確保在長時間的使用會話中，以及在與 Claude for Excel 或各種 IDE 合作夥伴的整合應用中，都能維持高度一致的效能表現。