Anthropic发布Claude Sonnet 4.5,代码和推理能力大幅提升

编辑者: Veronika Radoslavskaya

人工智能领域再传捷报,Anthropic公司于2025年9月29日正式发布了其最新AI模型Claude Sonnet 4.5。该模型在编码和推理能力方面实现了显著飞跃,并在SWE-bench评估中达到行业领先水平,展现出强大的实际应用潜力。

Claude Sonnet 4.5的核心亮点之一是其卓越的编码能力。在SWE-bench验证基准测试中,该模型成功解决了77.2%的真实世界软件工程任务,超越了其前代模型Claude Opus 4.1(74.5%)以及竞争对手GPT-5 Codex(74.5%)和Google Gemini 2.5 Pro(67.2%)。此外,在OSWorld基准测试中,该模型在处理真实世界计算机任务时也取得了61.4%的成功率,远超Claude Sonnet 4的42.2%。凭借这些优异表现,Claude Sonnet 4.5被誉为“世界上最好的编码模型”。

除了强大的编码能力,Claude Sonnet 4.5在推理和处理复杂任务方面也取得了长足进步。该模型能够在一个多步骤任务中保持超过30小时的专注,这对于需要长时间自主运行的代理任务尤为重要。Anthropic强调,Sonnet 4.5在金融、法律和医学等领域的专业知识和推理能力也得到了显著提升,为这些行业的应用带来了新的可能性。

为进一步增强用户体验和开发者生态,Anthropic同时推出了一系列配套工具和更新。Claude Code现已支持“检查点”功能,允许用户保存进度并轻松回滚到之前的状态,极大地提高了开发过程的灵活性和安全性。Claude API得到了增强,加入了上下文编辑和记忆工具,使得代理能够处理更长的任务和更复杂的场景。Claude for Chrome扩展程序现已向等待列表中的Max用户开放,允许用户在浏览器中直接与Claude交互并执行任务。

对于开发者而言,Claude Agent SDK的发布尤为重要,它提供了构建AI代理的基础设施,使开发者能够利用Anthropic内部的相同工具来创建自己的智能代理。在定价方面,Claude Sonnet 4.5保持了与Sonnet 4相同的价格,即每百万输入token 3美元,每百万输出token 15美元,这使得高性能AI技术更加普惠。Anthropic还强调了Sonnet 4.5在安全性和对齐性方面的进步,减少了诸如谄媚、欺骗和权力寻求等不良行为,并加强了对提示注入攻击的防御能力。

Claude Sonnet 4.5的发布标志着AI技术在理解和生成代码、执行复杂推理以及支持自主代理方面迈出了重要一步。这些进步不仅提升了开发者的工作效率,也为AI在各行各业的广泛应用开辟了新的前景。用户可以通过Claude API、Claude.ai网站以及Claude Code平台访问这一强大的新模型。

来源

  • PYMNTS.com

  • Anthropic: Claude Sonnet 4 - AI Model Details & Benchmarks

  • Release Notes | Anthropic Help Center

  • Anthropic releases Claude Sonnet 4 and Claude Opus 4 | InfoWorld

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。