OpenAI ha presentato il 25 settembre 2025 GDPval, un nuovo sistema di valutazione progettato per quantificare il valore economico generato dai modelli di intelligenza artificiale in contesti lavorativi reali. Questo benchmark mira a superare i limiti dei test accademici tradizionali, concentrandosi sulla capacità dell'IA di svolgere compiti con un impatto tangibile sull'economia.
Il GDPval copre un'ampia gamma di settori, tra cui sanità, finanza, manifattura e pubblica amministrazione, analizzando le prestazioni in 44 diverse professioni. L'obiettivo è valutare come l'IA possa supportare i professionisti, liberando il loro tempo per attività a maggior valore aggiunto. I primi risultati dei test hanno visto il modello GPT-5 di OpenAI competere efficacemente, raggiungendo o superando gli esperti umani nel 40,6% dei casi. Questo rappresenta un miglioramento significativo rispetto al GPT-4o, che circa 15 mesi prima aveva ottenuto un punteggio del 13,7% in metriche simili, quasi triplicando le prestazioni.
Nella prima iterazione del GDPval, il modello Claude Opus 4.1 di Anthropic ha leggermente superato GPT-5, venendo valutato come non inferiore agli esperti umani nel 49% delle attività. OpenAI ha attribuito parte di questo vantaggio alla tendenza di Claude a generare grafici più esteticamente gradevoli, suggerendo che la pura superiorità prestazionale potrebbe essere un fattore secondario in questo specifico confronto. Tuttavia, l'analisi dei costi API evidenzia che GPT-5 è più conveniente, con costi inferiori per token rispetto a Claude Opus 4.1, un fattore cruciale per l'adozione su larga scala. I costi per GPT-5 sono di circa 1,25 dollari per milione di token di input e 10 dollari per milione di token di output, mentre Claude Opus 4.1 costa circa 15 dollari per milione di token di input e 75 dollari per milione di token di output.
Il benchmark GDPval è considerato un passo avanti significativo nella misurazione dell'efficacia dell'IA nel mondo reale. Esperti del settore sottolineano come benchmark di questo tipo siano fondamentali per guidare lo sviluppo futuro dell'IA, fornendo metriche concrete sull'impatto economico anziché basarsi su speculazioni. L'approccio di OpenAI mira a fornire una visione più chiara delle capacità dell'IA, aiutando aziende e responsabili politici a comprenderne il vero valore e a guidare le decisioni di investimento.
Sebbene l'attuale versione del GDPval si concentri sulla generazione di report, OpenAI ha in programma di sviluppare test più completi che includano flussi di lavoro interattivi e coprano un numero maggiore di settori, per riflettere più accuratamente la complessità del lavoro professionale. L'introduzione del GDPval si inserisce in un contesto più ampio di dibattito sull'impatto dell'IA sul mercato del lavoro e sull'economia globale. Studi recenti indicano che l'IA potrebbe avere un impatto significativo, con previsioni che variano dall'aumento del PIL globale di trilioni di dollari alla trasformazione di milioni di posti di lavoro.
La competizione tra modelli come GPT-5 e Claude Opus 4.1, evidenziata da benchmark come GDPval, stimola l'innovazione e spinge l'intero settore verso capacità sempre più avanzate e applicazioni economicamente più rilevanti.