OpenAI Svela GPT-5.2: Architettura a Tre Livelli per Flussi di Lavoro Professionali

20:38, 11 dicembre

Autore: Veronika Radoslavskaya

OpenAI

@OpenAI

·Follow

Replying to @OpenAI

GPT-5.2 Thinking evals

6:18 PM · Dec 11, 2025

3.8K

Read 341 replies

Watch on X

OpenAI ha ufficialmente reso disponibile GPT-5.2 l'11 dicembre 2025, introducendo una serie di modelli caratterizzata da un'architettura a tre varianti. Questa configurazione è stata meticolosamente studiata per ottimizzare il lavoro di conoscenza professionale e le applicazioni di agenti autonomi. L'azienda sostiene che questa sia la sua serie di modelli più performante finora, vantando miglioramenti tangibili nella generazione di fogli di calcolo, nella creazione di presentazioni, nella programmazione, nell'elaborazione visiva e nel ragionamento a contesto esteso.

Carl Vellotti 🥞

@carlvellotti

·Follow

Replying to @OpenAI

6:44 PM · Dec 11, 2025

Tre Configurazioni Specializzate

La famiglia GPT-5.2 si articola nelle configurazioni Instant, Thinking e Pro, ciascuna calibrata per specifici livelli di complessità e scenari d'uso. La variante Instant è stata progettata per privilegiare la rapidità nelle richieste di routine, come la ricerca di informazioni, la stesura di testi e la traduzione. Al contrario, Thinking eccelle nei compiti strutturati e complessi, tra cui la scrittura di codice, l'analisi di documenti voluminosi, la matematica avanzata e la pianificazione strategica. Il livello Pro rappresenta il vertice in termini di capacità, mirato a garantire la massima affidabilità e precisione per le sfide più ostiche.

Prestazioni ai Vertici delle Classifiche

Il modello GPT-5.2 Thinking ha stabilito un nuovo record, conseguendo il 100% di accuratezza nell'esame di matematica della competizione AIME 2025. Inoltre, su GDPval—una valutazione che misura la conoscenza professionale attraverso 44 diverse occupazioni—il modello si è imposto o ha pareggiato con professionisti del settore nel 70,9% dei confronti diretti. Questo segna la prima volta che un modello di OpenAI raggiunge un livello di competenza paragonabile a quello di un esperto in mansioni di valore economico significativo. Sulle tabelle comparative di OpenAI, GPT-5.2 Thinking supera Gemini 3 e Claude Opus 4.5 di Anthropic in quasi tutti i test di ragionamento elencati, inclusi SWE-Bench Pro, GPQA Diamond e le suite ARC-AGI.

Impatto sull'Ingegneria del Software

Nel campo dello sviluppo software, GPT-5.2 Thinking ha ottenuto un punteggio del 55,6% su SWE-Bench Pro, una prova che valuta l'ingegneria del software nel mondo reale attraverso l'uso di molteplici linguaggi di programmazione. Questo risultato supera il 50,8% ottenuto da GPT-5.1. Il modello ha anche raggiunto l'80% su SWE-bench Verified. Aziende emergenti nel settore del coding, come Windsurf e CharlieCode, hanno già segnalato prestazioni all'avanguardia per i loro agenti di codifica e notevoli miglioramenti nei flussi di lavoro che richiedono più passaggi sequenziali.

Affidabilità e Gestione del Contesto

Le risposte fornite da GPT-5.2 Thinking presentano un calo degli errori del 30% rispetto al suo predecessore, GPT-5.1, rendendolo uno strumento più solido per le attività quotidiane di ricerca, scrittura e supporto decisionale. Il modello supporta finestre di contesto che si estendono fino a centinaia di migliaia di token, mantenendo un'accuratezza quasi perfetta nelle risoluzioni di coreferenza su più turni di conversazione. Anche le capacità visive hanno subito un notevole incremento, dimezzando circa i tassi di errore nei benchmark relativi all'interpretazione di grafici e alla comprensione delle interfacce software.

Il Contesto Competitivo

Il lancio avviene in un momento di forte tensione competitiva, soprattutto con Gemini 3 di Google, che attualmente domina la classifica di LMArena nella maggior parte dei parametri, ad eccezione della programmazione. Si è appreso che all'inizio di questo mese, il CEO Sam Altman avrebbe inviato una nota interna di “allerta rossa” al personale, a causa del calo del traffico su ChatGPT e delle preoccupazioni per la perdita di quote di mercato consumer a favore di Google. La comunicazione interna ha sottolineato la necessità di riorientare le priorità, ad esempio mettendo in pausa l'introduzione di pubblicità per concentrarsi invece sul miglioramento dell'esperienza utente di ChatGPT.

Modalità di Accesso

GPT-5.2 è in fase di distribuzione progressiva agli abbonati paganti di ChatGPT (inclusi i piani Plus, Pro, Business ed Enterprise). È inoltre immediatamente accessibile tramite API in tutte e tre le sue configurazioni. OpenAI ha anche introdotto nuove misure di sicurezza riguardanti l'uso per la salute mentale e la verifica dell'età per gli adolescenti, sebbene questi aspetti non abbiano ricevuto enfasi particolare durante la conferenza stampa di presentazione.

OpenAI