Отладка кода с помощью ИИ остается проблемой: Microsoft Research подчеркивает ограничения моделей OpenAI и Anthropic

Отредактировано: Veronika Nazarova

Недавнее исследование Microsoft Research показывает, что модели ИИ от OpenAI и Anthropic по-прежнему сталкиваются с проблемами при эффективной отладке кода. В исследовании, проведенном в апреле 2025 года, были оценены девять моделей ИИ, включая Claude 3.7 Sonnet, o1 от OpenAI и o3-mini от OpenAI, с использованием бенчмарка SWE-bench Lite с инструментами отладки. Claude 3.7 Sonnet достиг наивысшего показателя успеха - 48,4%. Исследователи объяснили субоптимальную производительность недостатком данных, представляющих поведение последовательного принятия решений. Microsoft Research также представляет debug-gym, новую среду, предназначенную для обучения инструментов кодирования ИИ сложному искусству отладки кода. Несмотря на смешанные результаты, исследование подчеркивает сохраняющуюся потребность в человеческом опыте в разработке программного обеспечения и потенциал для будущих достижений в возможностях отладки ИИ.

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.

ИИ испытывает трудности с отладкой кода: и... | Gaya One