Microsoft Researchの最近の調査によると、OpenAIとAnthropicのAIモデルは、コードを効果的にデバッグする上で依然として課題に直面しています。2025年4月に実施されたこの調査では、デバッグツールを備えたSWE-bench Liteベンチマークを使用して、Claude 3.7 Sonnet、OpenAIのo1、OpenAIのo3-miniを含む9つのAIモデルを評価しました。Claude 3.7 Sonnetは48.4%で最高の成功率を達成しました。 研究者らは、最適でないパフォーマンスを、シーケンシャルな意思決定行動を表すデータの不足に起因すると考えました。Microsoft Researchはまた、AIコーディングツールにコードのデバッグという複雑な技術を教えるために設計された新しい環境であるdebug-gymを紹介しています。 結果はまちまちでしたが、この調査は、ソフトウェア開発における人間の専門知識の継続的な必要性と、AIデバッグ機能の将来の進歩の可能性を強調しています。
AIコードのデバッグは依然として課題:Microsoft ResearchがOpenAIとAnthropicモデルの限界を強調
編集者: Veronika Nazarova
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?
できるだけ早くコメントを考慮します。