Недавнее исследование Microsoft Research показывает, что модели ИИ от OpenAI и Anthropic по-прежнему сталкиваются с проблемами при эффективной отладке кода. В исследовании, проведенном в апреле 2025 года, были оценены девять моделей ИИ, включая Claude 3.7 Sonnet, o1 от OpenAI и o3-mini от OpenAI, с использованием бенчмарка SWE-bench Lite с инструментами отладки. Claude 3.7 Sonnet достиг наивысшего показателя успеха - 48,4%. Исследователи объяснили субоптимальную производительность недостатком данных, представляющих поведение последовательного принятия решений. Microsoft Research также представляет debug-gym, новую среду, предназначенную для обучения инструментов кодирования ИИ сложному искусству отладки кода. Несмотря на смешанные результаты, исследование подчеркивает сохраняющуюся потребность в человеческом опыте в разработке программного обеспечения и потенциал для будущих достижений в возможностях отладки ИИ.
Отладка кода с помощью ИИ остается проблемой: Microsoft Research подчеркивает ограничения моделей OpenAI и Anthropic
Отредактировано: Veronika Nazarova
Читайте больше новостей по этой теме:
Вы нашли ошибку или неточность?
Мы учтем ваши комментарии как можно скорее.