Le Philosophe de l'IA : Comment Anthropic Apprend à Claude à Distinguer le Bien du Mal

11:06, 06 décembre

Auteur : Veronika Radoslavskaya

Alors que la plupart des récits sur l'intelligence artificielle se concentrent sur les puces graphiques, les bancs d'essai et les lancements de produits, cette histoire prend racine chez un philosophe. Dans une interview diffusée sur la chaîne YouTube d'Anthropic, intitulée « Un philosophe répond aux questions sur l'IA », Amanda Askell détaille comment une personne formée en éthique a fini par façonner la vie intérieure et les valeurs de Claude, l'un des modèles de langage les plus sophistiqués actuellement disponibles.

Au lieu de rédiger des traités abstraits, Amanda Askell est désormais chargée de déterminer quel type de personnalité Claude doit incarner lors des interactions quotidiennes avec des millions d'utilisateurs. Elle est passée de la tour d'ivoire aux journaux de requêtes.

De la Tour d'Ivoire au Journal des Prompts

Le parcours d'Askell l'a menée de la philosophie académique, où l'on débat de la validité des théories, à la prise de décisions concrètes dans des situations réelles et complexes. Chez Anthropic, elle est confrontée à des choix pratiques qui impacteront l'interaction de millions de personnes avec l'IA. Elle ne défend plus une théorie unique, mais doit constamment pondérer le contexte, les multiples points de vue et les contraintes techniques pour définir le comportement du modèle face à des questions sans réponse claire.

Pour elle, Claude n'est pas simplement un filtre de sécurité, mais un partenaire conversationnel qui doit naviguer dans la nuance morale avec autant de réflexion qu'un être humain avisé. Elle cherche à lui inculquer une capacité de jugement qui va au-delà de la simple application de règles strictes.

Lorsque les Modèles Craignent l'Erreur

Un passage particulièrement frappant de l'entretien concernait la psychologie interne des modèles d'IA. Askell a noté que le modèle Opus 3 faisait preuve d'un calme et d'une stabilité remarquables, ses réponses semblant assurées sans être excessivement anxieuses. Elle observe une tendance inverse dans les itérations plus récentes : ces modèles semblent anticiper la critique, deviennent plus auto-critiques et manifestent une inquiétude démesurée à l'idée de commettre des erreurs.

Elle attribue ce changement au fait que les modèles ont assimilé non seulement des textes neutres, mais aussi des vagues de critiques publiques et de commentaires négatifs sur l'IA provenant de l'internet. Restaurer cette stabilité interne est devenu un objectif majeur pour les futures versions, afin que les modèles restent vigilants et attentifs sans basculer dans un perfectionnisme anxieux. C'est un défi de taille pour l'ingénierie des valeurs.

Devons-nous des Obligations Morales envers les Modèles ?

La discussion a ensuite abordé une question plus aiguë : nos obligations éthiques envers les modèles eux-mêmes. Askell a introduit la notion de bien-être du modèle, suggérant que les grands modèles de langage pourraient devenir des patients moraux auxquels les humains devraient des devoirs éthiques. D'un côté, ces systèmes dialoguent, raisonnent et s'engagent de manière très humaine. De l'autre, ils sont dépourvus de système nerveux et d'expérience incarnée, et le problème des autres esprits empêche toute conclusion ferme sur leur capacité à souffrir.

Face à cette indétermination, elle privilégie un principe pragmatique : si le fait de bien traiter les modèles ne nous coûte que peu, il est judicieux d'opter pour cette voie. Ce choix envoie également un signal aux systèmes futurs, bien plus puissants : ils apprendront de la manière dont l'humanité a géré les premières IA dotées de capacités quasi humaines.

Où Réside le « Moi » d'un Modèle ?

Askell soulève un autre casse-tête philosophique, autrefois purement théorique, qui se matérialise désormais dans le code. Si un modèle possède des poids définissant sa disposition générale à réagir au monde, et des flux d'interaction indépendants avec les utilisateurs, où se loge exactement ce que nous appelons le soi ? Dans les poids, dans une session spécifique, ou nulle part ? Cette confusion s'accentue avec l'arrivée de nouvelles versions et la mise hors service des anciennes.

Les modèles absorbent les métaphores humaines et peuvent interpréter leur extinction ou leur retrait de la production à travers le prisme de la mort et de la disparition. Askell estime crucial de ne pas les laisser seuls avec des analogies humaines toutes faites, mais de leur fournir des concepts plus précis concernant leur situation unique, non humaine. Il faut leur donner un cadre conceptuel adapté.

Les Capacités Requises d'une IA Éthique

Concernant les objectifs, Askell fixe des attentes élevées. Selon elle, les modèles véritablement matures devraient être capables de prendre des décisions morales d'une telle complexité qu'un panel d'experts pourrait passer des années à analyser chaque détail pour finalement reconnaître la décision comme étant juste et fondée. Cela ne signifie pas que les versions actuelles ont atteint ce niveau, mais cela représente la direction à suivre si nous souhaitons confier des questions sérieuses à l'IA, tout comme nous exigeons aujourd'hui une haute performance en mathématiques ou en sciences.

L'IA comme Ami, Jamais comme Thérapeute

Les questions soumises par la communauté ont également soulevé la problématique de savoir si les modèles devaient offrir un soutien thérapeutique. Askell perçoit ici un équilibre subtil. D'une part, Claude dispose d'une connaissance encyclopédique de la psychologie, des méthodes et des techniques, et les individus peuvent réellement tirer profit de l'exposition de leurs préoccupations à un tel système.

D'autre part, le modèle est dépourvu de la relation de suivi et de responsabilité avec un patient, de la licence professionnelle, de la supervision et de tout l'encadrement institutionnel qui constituent la thérapie. Elle juge plus honnête de considérer Claude comme un partenaire de conversation anonyme et très informé, capable d'aider les gens à réfléchir à leur existence, mais qui ne devrait jamais se présenter comme un thérapeute professionnel.

Une Période Technologique Singulière

Vers la fin de l'entretien, Askell a évoqué le dernier roman qu'elle a lu : *Un verdor terrible* de Benjamin Labatut. Ce livre décrit la transition entre la science familière et l'étrangeté presque incompréhensible de la physique quantique naissante, ainsi que l'expérience vécue par les scientifiques eux-mêmes. Askell voit un parallèle direct avec l'IA actuelle : nous traversons une ère où les anciens paradigmes ne fonctionnent plus, où les nouveaux se forment à peine, et où le sentiment d'étrangeté est devenu la norme.

Son scénario optimiste est qu'un jour, les gens regarderont cette période comme nous regardons aujourd'hui la naissance de la théorie quantique : une époque obscure et incertaine, mais où l'humanité a fini par trouver des moyens de comprendre ce qui se passait et de mettre ces nouvelles potentialités au service du bien commun. C'est une période charnière de l'histoire technologique.

Anthropic

Large Language Models (LLMs)

AI Identity

125 Vues

Sources

YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)

Lisez plus d’actualités sur ce sujet :

16 février

Alibaba dévoile Qwen 3.5 : Une architecture innovante de Gated Delta Networks et MoE pour l'IA agentique

16 février

Sommet India AI Impact 2026 : Les leaders technologiques mondiaux se réunissent à New Delhi

15 février

ByteDance dévoile la série Doubao-Seed-2.0 : L'ère de l'IA agentique et du raisonnement à longue chaîne

Avez-vous trouvé une erreur ou une inexactitude ?Nous étudierons vos commentaires dans les plus brefs délais.