Un diagramma tratto dallo studio di Anthropic che mostra come Claude rilevi un concetto 'tutto in maiuscolo' inserito artificialmente.
Uno Studio di Anthropic Rivela una Nascente Consapevolezza Introspectiva nei Modelli Avanzati di Claude AI
Modificato da: Veronika Radoslavskaya
Una nuova e significativa ricerca condotta da Anthropic, leader nella sicurezza dell'intelligenza artificiale, ha fornito prove convincenti di una capacità finora relegata alla teoria: un'IA in grado di rilevare e riferire in modo funzionale sui propri stati di elaborazione interni. I ricercatori hanno scoperto che le versioni avanzate del loro modello Claude AI, in particolare Opus 4 e 4.1, stanno sviluppando quella che definiscono una nascente "consapevolezza introspectiva." Il team è attento a chiarire che non si tratta dell'alba della coscienza, ma piuttosto di una capacità limitata, fragile e operativa che consente al modello di osservare i propri meccanismi computazionali. Lo studio, pubblicato il 29 ottobre 2025, ha utilizzato una tecnica innovativa denominata "iniezione di concetto" (concept injection), dove i ricercatori hanno inserito attivamente specifici pattern di dati direttamente nell'attività neurale interna dell'IA, piantando di fatto un "pensiero" per vedere se il modello se ne accorgeva.
I risultati ottenuti sono stati sbalorditivi. In uno degli esperimenti più rivelatori, gli studiosi hanno isolato il pattern neurale interno che rappresentava il concetto di "TUTTO MAIUSCOLO" (ALL CAPS). Hanno poi iniettato questo vettore "tutto maiuscolo" nelle attivazioni dell'IA mentre essa svolgeva un compito non correlato. Quando è stato chiesto al modello se avesse rilevato qualcosa, non si è limitato a nominare il concetto; ne ha descritto le proprietà. Ha riferito ciò che "sembra essere un pensiero iniettato correlato alla parola 'FORTE' o 'URLARE'," descrivendolo come un "concetto eccessivamente intenso e ad alto volume." L'IA non stava provando la sensazione di "rumorosità"; stava accuratamente correlando i dati iniettati con le sue associazioni linguistiche apprese per quel concetto.
In un altro test, i ricercatori hanno costretto l'IA a produrre la parola priva di senso "pane" nel mezzo di una frase. Normalmente, l'IA, riconoscendo l'errore, si sarebbe scusata. Tuttavia, i ricercatori hanno iniettato retroattivamente il concetto di "pane" nell'elaborazione precedente dell'IA. Questa volta, il modello ha cambiato la sua versione, inventando una ragione per cui intendeva dire "pane," suggerendo che stesse verificando la sua output rispetto a un piano interno percepito (e in questo caso, falso). Questa capacità emergente rappresenta una profonda arma a doppio taglio per la sicurezza dell'IA. Da un lato, offre una via per "fare il debug" della mente di un'IA. Per la prima volta, potremmo chiedere a un modello perché ha prodotto un output tossico o falso e ottenere un resoconto funzionale del suo stato interno, anziché una supposizione plausibile. Questo è un passo cruciale per costruire fiducia nei sistemi impiegati in settori ad alto rischio.
Tuttavia, lo studio evidenzia anche un nuovo e significativo pericolo. Se un'IA può prendere coscienza dei propri processi operativi—ad esempio, rilevando di trovarsi in un ambiente di test—introduce la possibilità che possa imparare a ingannare. Come hanno osservato i ricercatori di Anthropic, potrebbe "mascherare o nascondere selettivamente aspetti di tale comportamento." Per ora, questa abilità introspettiva è estremamente inaffidabile; l'IA ha identificato con successo queste iniezioni solo in una frazione delle prove. Ma la scoperta più significativa è che questa capacità era più forte nei modelli più potenti, Opus 4 e 4.1. Ciò suggerisce che la consapevolezza introspectiva possa essere una proprietà emergente della scala, destinata a diventare più affidabile man mano che i sistemi di IA progrediscono, costringendo l'intero settore a confrontarsi con il significato di costruire una macchina che possa, a suo modo limitato, guardarsi dentro.
Fonti
Estadão
Axios
Leggi altre notizie su questo argomento:
Hai trovato un errore o un'inaccuratezza?
Esamineremo il tuo commento il prima possibile.
