Anthropic发布Claude Opus 4.5:树立智能体编码与效率新标杆

编辑者: Veronika Radoslavskaya

Anthropic公司近期推出了其迄今为止最强大的模型——Claude Opus 4.5。此举不仅巩固了其在人工智能领域的领先地位,更在自主智能体(Agentic)的运作和复杂计算机任务处理方面树立了行业新标杆。本次更新的核心在于追求极致性能的同时,实现了令牌效率的显著提升,确保了旗舰级性能在实际生产环境中的可靠性与经济性。

Opus 4.5最引人注目的特性在于其在长周期、自主任务中展现出的卓越稳定性和抗干扰能力。以往的模型在处理需要多步骤推理的复杂工作流时,往往容易出现性能衰退,但Opus 4.5在持续、复杂的流程中,如大规模代码重构或多系统联动故障排除,表现出远超前代的稳定性与推理深度。这表明其内在的逻辑处理能力获得了质的飞跃。

在一个典型的案例中,Opus 4.5在模拟航空公司客户服务场景时,成功针对一个复杂的请求提出了一个非标准但完全合理的解决方案。然而,最初的测试系统因其未预设路径而将其错误地标记为无效。这种能够创造性地处理模糊性、并跳出既定框架解决问题的能力,充分彰显了该模型在应对真实世界挑战时的巨大进步。

对于软件开发人员而言,Opus 4.5树立了令人信服的新标杆。它在衡量真实世界软件工程能力的标准测试,例如SWE-bench Verified中,取得了领先的成绩,尤其在修复软件缺陷方面,性能超越了所有先前的迭代模型。技术实力的提升并未以牺牲效率为代价。Anthropic的官方数据显示,在处理某些高复杂度任务时,Opus 4.5实现相同结果所需的输出令牌数量,相比旧版的Opus和Sonnet系列模型,最多可减少76%。对于构建需要独立执行任务的智能体工作流而言,这种效率的提升至关重要,因为它直接降低了延迟和运营成本。

为了使用户能够精细调控速度与深度的平衡,Anthropic引入了“努力参数”(Effort Parameter)。该参数允许开发者指定所需的“低”努力度(适用于高频自动化,追求最快和最高效的响应)或“高”努力度(适用于复杂分析,追求最充分的推理深度和详尽性)。这种对模型内部处理流程的可调控性,使用户能够根据特定任务的需求和预算,精确匹配AI的性能输出。

此外,该模型继续保持了慷慨的200,000个令牌上下文窗口,这为深度文档研究提供了充足的空间。更重要的是,Opus 4.5优化了上下文管理机制,能够自动对早期对话历史进行总结和优先级排序。这一改进确保了在长时间的用户会话中,以及在与Claude for Excel和各类IDE合作伙伴集成的过程中,模型都能保持高度一致的性能表现,真正做到了“运筹帷幄之中,决胜千里之外”。

来源

  • @businessline

  • Mint

  • Medium

  • Anthropic

  • Wikipedia

  • CNET

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。