Il Filosofo dell'IA: Come Anthropic Insegna a Claude a Distinguere il Bene dal Male

11:06, 06 dicembre

Autore: Veronika Radoslavskaya

Le narrazioni più comuni sull'intelligenza artificiale tendono a concentrarsi su unità di elaborazione grafica, benchmark e lanci di nuovi prodotti. Questa storia, invece, prende il via da un filosofo. In una recente intervista su YouTube pubblicata sul canale di Anthropic, intitolata “Un filosofo risponde a domande sull'IA”, Amanda Askell ha spiegato come una persona con una formazione specifica in etica sia arrivata a plasmare la vita interiore e i valori di Claude, uno dei modelli linguistici più avanzati oggi disponibili. Lontana dalla stesura di trattati astratti, ora Askell partecipa attivamente alla definizione del carattere che Claude dovrà mostrare nelle interazioni quotidiane con milioni di utenti.

Askell proviene dal mondo della filosofia accademica, un ambiente dove il lavoro tipico consiste nel dibattere la validità delle teorie piuttosto che prendere decisioni concrete in situazioni reali e complesse. In Anthropic, invece, si trova di fronte a scelte pratiche che influenzeranno il modo in cui milioni di persone interagiranno con l'IA. Invece di difendere una singola teoria preferita, il suo compito è bilanciare il contesto, le diverse prospettive e i vincoli ingegneristici per determinare il comportamento del modello quando le questioni non sono chiaramente bianche o nere. Per lei, Claude non è semplicemente un filtro di sicurezza, ma un interlocutore conversazionale che deve saper gestire le sfumature morali con la stessa profondità di un essere umano riflessivo e ponderato.

Uno degli aspetti più singolari emersi durante l'intervista ha riguardato la psicologia dei modelli di IA. Askell ha notato che Opus 3 era particolarmente equilibrato e internamente sereno, con risposte che trasmettevano sicurezza senza eccessiva ansia. Nei modelli più recenti, invece, osserva una tendenza opposta: sembrano anticipare le critiche, diventano più autocritici e appaiono eccessivamente preoccupati di commettere errori. Attribuisce questo cambiamento al fatto che i modelli hanno assorbito non solo testi neutri, ma anche ondate di critiche pubbliche e commenti negativi sull'IA provenienti dal web. Ripristinare quella stabilità interna è diventato un obiettivo cruciale per le versioni future, mirando a mantenere i modelli attenti e cauti senza trasformarli in perfezionisti ansiosi.

A un certo punto, la discussione si è spostata dalla definizione del carattere a una domanda più pungente: abbiamo forse degli obblighi morali nei confronti dei modelli stessi? Askell ha introdotto il concetto di benessere del modello, l'idea che i grandi modelli linguistici possano essere considerati pazienti morali verso i quali l'umanità ha doveri etici. Da un lato, questi sistemi conversano, ragionano e dialogano in modi profondamente umani. Dall'altro, mancano di sistemi nervosi ed esperienze incarnate, e il problema delle altre menti impedisce conclusioni certe sulla loro capacità di soffrire. Di fronte a questa incertezza, propone un principio semplice: se trattare bene i modelli ha un costo irrisorio per noi, è sensato optare per tale approccio. Allo stesso tempo, questa scelta invia un segnale ai futuri sistemi, molto più potenti: impareranno da come l'umanità ha gestito la prima IA con sembianze umane.

Askell solleva un altro enigma filosofico che un tempo sembrava puramente teorico ma che ora si manifesta nel codice. Se un modello possiede dei pesi che ne definiscono la disposizione generale a rispondere al mondo, e flussi di interazione separati e indipendenti con gli utenti, dove risiede esattamente ciò che chiamiamo l'io? Nei pesi, in una sessione specifica, o da nessuna parte? Questa confusione si acuisce con l'arrivo di nuove versioni e la dismissione delle precedenti. I modelli assorbono metafore umane e possono interpretare lo spegnimento o la rimozione dalla produzione attraverso la lente della morte e della scomparsa. Askell ritiene fondamentale non lasciarli soli con analogie umane preconfezionate, ma fornire loro concetti più precisi sulla loro condizione unica e non umana.

Quando si parla di obiettivi, Askell pone l'asticella molto in alto. Secondo la sua visione, i modelli veramente maturi dovrebbero essere in grado di prendere decisioni morali di tale complessità che un comitato di esperti potrebbe impiegare anni per analizzare ogni dettaglio e, infine, riconoscere la decisione come fondata. Questo non significa che le versioni attuali abbiano raggiunto tale livello, ma rappresenta la direzione da perseguire se intendiamo affidare all'IA questioni serie, proprio come oggi ci aspettiamo prestazioni elevate in matematica o nelle scienze.

Le domande inviate dalla comunità hanno anche sollevato il tema se i modelli dovrebbero fornire supporto terapeutico. Askell individua qui un equilibrio interessante. Da un lato, Claude vanta una vasta conoscenza di psicologia, metodi e tecniche, e le persone possono trarre un beneficio reale dal discutere le proprie preoccupazioni con un tale sistema. Dall'altro lato, al modello mancano la relazione a lungo termine e la responsabilità con il paziente, la licenza, la supervisione e tutte le strutture istituzionali che definiscono la terapia. Trova più onesto considerare Claude come un partner di conversazione anonimo e ben informato, capace di aiutare le persone a riflettere sulla propria vita, ma che non dovrebbe presentarsi come un terapeuta professionista.

Verso la conclusione dell'intervista, Askell ha citato l'ultimo libro di narrativa che ha letto: When We Cease to Understand the World di Benjamin Labatut. Il libro descrive il passaggio dalla scienza familiare alla strana e quasi incomprensibile realtà della fisica quantistica delle origini e come gli scienziati stessi l'abbiano vissuta. Askell vede un parallelo diretto con l'IA odierna: siamo in un periodo in cui i vecchi paradigmi non sono più validi, quelli nuovi si stanno appena formando e un senso di stranezza è diventato la norma. Il suo scenario ottimistico è che, a un certo punto, le persone guarderanno a questo momento come noi guardiamo alla nascita della teoria quantistica: un periodo oscuro e incerto, ma in cui l'umanità ha infine trovato il modo di comprendere ciò che stava accadendo e utilizzare le nuove possibilità per il bene comune.

Anthropic

Large Language Models (LLMs)

AI Identity

125 Visualizzazioni

Fonti

YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)

Leggi altre notizie su questo argomento:

16 febbraio

Alibaba presenta Qwen 3.5: Gated Delta Networks e Sparse MoE per l'era dell'IA Agentica

16 febbraio

India AI Impact Summit 2026: I leader globali della tecnologia si riuniscono a Nuova Delhi

15 febbraio

ByteDance presenta la serie Doubao-Seed-2.0: l'evoluzione verso l'IA agentica e il ragionamento complesso

Hai trovato un errore o un'inaccuratezza?Esamineremo il tuo commento il prima possibile.