Un recente studio di Microsoft Research rivela che i modelli di intelligenza artificiale di OpenAI e Anthropic incontrano ancora difficoltà nel debuggare il codice in modo efficace. Lo studio, condotto nell'aprile 2025, ha valutato nove modelli di intelligenza artificiale, tra cui Claude 3.7 Sonnet, o1 di OpenAI e o3-mini di OpenAI, utilizzando il benchmark SWE-bench Lite con strumenti di debug. Claude 3.7 Sonnet ha raggiunto il tasso di successo più alto, pari al 48,4%. I ricercatori hanno attribuito le prestazioni non ottimali a una mancanza di dati che rappresentano il comportamento decisionale sequenziale. Microsoft Research sta anche introducendo debug-gym, un nuovo ambiente progettato per addestrare gli strumenti di codifica AI nell'arte complessa del debug del codice. Nonostante i risultati contrastanti, la ricerca sottolinea la continua necessità di competenze umane nello sviluppo di software e il potenziale per futuri progressi nelle capacità di debug dell'IA.
Il Debugging del Codice AI è Ancora una Sfida: Microsoft Research Evidenzia i Limiti dei Modelli di OpenAI e Anthropic
Modificato da: Veronika Nazarova
Leggi altre notizie su questo argomento:
Hai trovato un errore o un'inaccuratezza?
Esamineremo il tuo commento il prima possibile.