Anthropic、Claude Opus 4.5を発表:エージェントコーディングと効率性で新たな業界標準を確立

編集者: Veronika Radoslavskaya

Anthropic社は、最新モデルであるClaude Opus 4.5を発表しました。これは同社史上最も高性能なモデルであり、自律型エージェントの能力や複雑なコンピューティングタスクの処理において、新たな業界標準を打ち立てています。

今回のリリースは、最高の性能を維持しつつ、トークン効率を劇的に向上させることに重点を置いています。これにより、フラッグシップモデルの性能が、実際のプロダクションワークロードにおいて、より信頼性が高く、かつ経済的に利用可能になることを目指しています。

Opus 4.5の最も際立った特徴は、長期間にわたる自律的なタスクにおける、優れた安定性と回復力です。以前のモデルが多段階の推論でつまずくことがあったのに対し、Opus 4.5は、大規模なコードのリファクタリングから、複数システムにまたがるバグのトラブルシューティングに至るまで、持続的で複雑なワークフローにおいて飛躍的に性能が向上しました。この改善は、その推論能力における、より深い安定性と繊細さを示しています。

特に注目すべき事例として、航空会社の顧客サービスシミュレーションが挙げられます。Opus 4.5は、複雑な要求に対して、形式化されたテストシステムが想定していなかったものの、正当な非標準的な解決策を提示しました。テストシステムはこの解を当初誤りと判定しましたが、この予期せぬ経路を乗り越えて曖昧さを解決する能力は、実世界での応用における大きな進歩を物語っています。

開発者にとって、Opus 4.5は新たな強力なベンチマークを確立しました。具体的には、ソフトウェアバグ修正能力を試すSWE-bench Verifiedのような実世界のソフトウェアエンジニアリングテストにおいて、先行モデルを凌駕する優れたパフォーマンスを発揮しています。この技術的な能力は、驚異的なトークン効率と両立しています。

Anthropicの公式文書によれば、特定の高複雑度タスクにおいて、Opus 4.5は同等の結果を達成するために、従来のOpusおよびSonnetファミリーのモデルと比較して、出力トークンを最大で76%削減できることが示されています。この効率性は、AIが自律的に動作するように設計されたエージェントワークフローを構築する開発者にとって極めて重要です。なぜなら、これはレイテンシと運用コストの両方を根本的に引き下げるからです。

Anthropicは、ユーザーが速度と深さのバランスを完全に制御できるように、Effort Parameter(努力パラメータ)を導入しました。これにより、開発者は「低」努力(大量自動化のための最速かつ最もトークン効率の高い応答)または「高」努力(複雑な分析のための最大限の徹底性と推論の深さ)を指定できます。

このモデルは、広範なドキュメント調査に対応できる十分な20万トークンのコンテキストウィンドウを維持しています。さらに、モデルはコンテキスト管理が洗練されており、長い会話履歴を自動的に要約・優先順位付けします。これにより、長時間のユーザーセッションや、Claude for Excel、各種IDEパートナーとの連携においても、一貫性の高いパフォーマンスが保証されます。

ソース元

  • @businessline

  • Mint

  • Medium

  • Anthropic

  • Wikipedia

  • CNET

エラーや不正確な情報を見つけましたか?

できるだけ早くコメントを考慮します。