Un estudio reciente de Microsoft Research revela que los modelos de IA de OpenAI y Anthropic aún enfrentan desafíos para depurar código de manera efectiva. El estudio, realizado en abril de 2025, evaluó nueve modelos de IA, incluidos Claude 3.7 Sonnet, o1 de OpenAI y o3-mini de OpenAI, utilizando el benchmark SWE-bench Lite con herramientas de depuración. Claude 3.7 Sonnet logró la tasa de éxito más alta con un 48.4%. Los investigadores atribuyeron el rendimiento subóptimo a la falta de datos que representen el comportamiento de toma de decisiones secuencial. Microsoft Research también está presentando debug-gym, un nuevo entorno diseñado para capacitar a las herramientas de codificación de IA en el complejo arte de la depuración de código. A pesar de los resultados mixtos, la investigación subraya la necesidad continua de la experiencia humana en el desarrollo de software y el potencial de futuros avances en las capacidades de depuración de la IA.
La depuración de código con IA sigue siendo un desafío: Microsoft Research destaca las limitaciones de los modelos de OpenAI y Anthropic
Editado por: Veronika Radoslavskaya
Lea más noticias sobre este tema:
Salesforce Informa: La IA Gestiona Hasta el 50% de la Carga de Trabajo, Marcando el Inicio de la Revolución del Trabajo Digital
Freepik Lanza Generación Ilimitada de Imágenes con IA para Usuarios Premium
La UE rechaza aplazar la implementación de la Ley de Inteligencia Artificial, a pesar de la presión de la industria
¿Encontró un error o inexactitud?
Consideraremos sus comentarios lo antes posible.