人工智慧程式碼偵錯仍面臨挑戰:微軟研究強調 OpenAI 和 Anthropic 模型的局限性

编辑者: Veronika Nazarova

人工智慧程式碼偵錯仍面臨挑戰

微軟研究強調 OpenAI 和 Anthropic 模型的局限性

最近一項微軟研究表明,OpenAI 和 Anthropic 的人工智慧模型在有效偵錯程式碼方面仍然面臨挑戰。該研究於 2025 年 4 月進行,使用帶有偵錯工具的 SWE-bench Lite 基準評估了九種人工智慧模型,包括 Claude 3.7 Sonnet、OpenAI 的 o1 和 OpenAI 的 o3-mini。Claude 3.7 Sonnet 實現了最高的成功率,為 48.4%。

研究人員將這種欠佳的性能歸因於缺乏代表順序決策行為的數據。微軟研究院還在推出 debug-gym,這是一種新穎的環境,旨在訓練人工智慧編碼工具掌握複雜的程式碼偵錯藝術。儘管結果喜憂參半,但該研究強調了軟體開發中對人類專業知識的持續需求,以及人工智慧偵錯能力未來發展的潛力。

发现错误或不准确的地方吗?

我们会尽快处理您的评论。