Anthropic 發布 Claude Sonnet 4.5,大幅提升程式碼編寫與推理能力

编辑者: Veronika Radoslavskaya

人工智慧公司 Anthropic 日前發布了其最新的 AI 模型 Claude Sonnet 4.5,該模型在程式碼編寫和推理能力方面取得了顯著進展。Claude Sonnet 4.5 在 SWE-bench 基準測試中取得了 77.2% 的優異成績,並能在超過 30 小時的複雜多步驟任務中保持專注。 該模型在 OSWorld 基準測試中的成功率也達到了 61.4%,遠超前代模型。

此次更新伴隨著多項產品的升級。Claude Code 現已支援「檢查點」功能,允許使用者保存進度並回溯到先前的狀態,這對於開發流程至關重要。 Claude API 增強了上下文編輯和記憶工具,使其能處理更長、更複雜的任務。 此外,Claude 應用程式內建的程式碼執行功能讓使用者可以直接在對話中執行程式碼並創建檔案。

Anthropic 同時推出了 Claude Agent SDK,讓開發者能夠利用 Anthropic 自有的基礎設施來建構 AI 代理(agents)。 該 SDK 提供構建生產級代理所需的工具,包括上下文管理、豐富的工具生態系統以及進階的權限控制。 Claude Sonnet 4.5 的定價與先前版本保持一致,輸入代幣為每百萬 3 美元,輸出代幣為每百萬 15 美元。

Anthropic 強調,Claude Sonnet 4.5 是其迄今為止「最對齊(aligned)」的前沿模型,在減少不良行為方面取得了顯著進步。 該模型的推出鞏固了 Anthropic 在 AI 領域的競爭力,並為開發者和企業提供了更強大、更可靠的 AI 工具。

來源

  • PYMNTS.com

  • Anthropic: Claude Sonnet 4 - AI Model Details & Benchmarks

  • Release Notes | Anthropic Help Center

  • Anthropic releases Claude Sonnet 4 and Claude Opus 4 | InfoWorld

发现错误或不准确的地方吗?

我们会尽快处理您的评论。