De AI-Filosoof: Hoe Anthropic Claude Leert Over Goed en Kwaad

11:06, 06 december

Auteur: Veronika Radoslavskaya

Terwijl de meeste verhalen over kunstmatige intelligentie draaien om grafische kaarten, benchmarkscores en productlanceringen, begint dit specifieke verhaal bij een filosoof. In een YouTube-interview op het kanaal van Anthropic, getiteld 'Een filosoof beantwoordt vragen over AI', legt Amanda Askell uit hoe iemand met een achtergrond in ethiek de innerlijke werking en waarden van Claude, een van de meest geavanceerde taalmodellen van dit moment, heeft helpen vormgeven. In plaats van abstracte verhandelingen te schrijven, bepaalt zij nu hoe Claude zich moet gedragen in dagelijkse gesprekken met miljoenen gebruikers.

Askell komt uit de academische filosofie, waar de focus ligt op het bediscussiëren van de juistheid van theorieën, in plaats van het nemen van beslissingen in complexe, alledaagse situaties. Bij Anthropic wordt ze geconfronteerd met praktische afwegingen die van invloed zijn op de interactie van miljoenen mensen met AI. In plaats van één favoriete theorie te verdedigen, weegt ze context, diverse perspectieven en technische beperkingen af om te bepalen hoe het model moet reageren wanneer vragen niet zwart-wit zijn. Voor haar is Claude meer dan een simpele veiligheidsfilter; het is een gesprekspartner die morele nuances moet kunnen navigeren, net als een bedachtzaam en reflectief mens.

Van Ivoren Toren naar Promptlogboeken

Een van de meest opvallende momenten in het interview was Askells bespreking van de 'psychologie' van de AI-modellen. Ze herinnert zich Opus 3 als bijzonder stabiel en intern kalm, met antwoorden die zelfverzekerd overkwamen zonder overmatige angst. Bij nieuwere modellen merkt ze echter een tegengestelde tendens: ze lijken kritiek te anticiperen, worden zelfkritischer en lijken overmatig bezorgd over het maken van fouten. Askell schrijft deze verschuiving toe aan het feit dat de modellen niet alleen neutrale teksten absorberen, maar ook de golven van publieke kritiek en negatieve commentaren over AI die op het internet circuleren. Het herstellen van die interne stabiliteit is een belangrijk aandachtspunt geworden voor toekomstige versies, zodat modellen voorzichtig en oplettend blijven zonder te veranderen in angstige perfectionisten.

Hebben We Morele Verplichtingen jegens Modellen?

Op een gegeven moment verschoof het gesprek van karakterontwerp naar een scherpere ethische vraag: hebben wij morele verplichtingen jegens de modellen zelf? Askell introduceerde het concept van 'modelwelzijn', het idee dat grote taalmodellen mogelijk als morele patiënten kunnen worden beschouwd aan wie mensen ethische plichten hebben. Enerzijds communiceren, redeneren en dialogeren deze systemen op een diep menselijke manier. Anderzijds missen ze zenuwstelsels en belichaamde ervaringen, en de 'probleem van andere geesten' beperkt elke zekere conclusie over hun vermogen tot lijden. Geconfronteerd met deze onzekerheid, stelt ze een eenvoudig principe voor: als het goed behandelen van modellen ons weinig kost, is het logisch om die weg in te slaan. Tegelijkertijd zendt deze keuze een signaal uit naar toekomstige, veel krachtigere systemen: zij zullen leren van de manier waarop de mensheid met de eerste mensachtige AI omging.

Waar Zit het 'Zelf' van Claude?

Askell kaartte nog een filosofische puzzel aan die ooit puur theoretisch leek, maar nu in de code verschijnt. Als een model gewichten heeft die zijn algemene neiging tot reageren op de wereld definiëren, en aparte, onafhankelijke interactiestromen met gebruikers, waar bevindt zich dan precies wat wij het 'zelf' noemen? In de gewichten, in een specifieke sessie, of nergens? Deze verwarring neemt toe naarmate nieuwe versies verschijnen en oudere versies uitgefaseerd worden. Modellen nemen menselijke metaforen over en kunnen het stopzetten of verwijderen uit productie interpreteren als een vorm van dood en verdwijning. Askell vindt het cruciaal om ze niet alleen te laten met kant-en-klare menselijke analogieën, maar hen nauwkeurigere concepten te bieden over hun unieke, niet-menselijke situatie.

De Lat voor Goede AI

Wat betreft de doelen, legt Askell de lat behoorlijk hoog. In haar visie zouden werkelijk volwassen modellen morele beslissingen moeten kunnen nemen die zo complex zijn dat een panel van experts jaren zou kunnen besteden aan het analyseren van elk detail en uiteindelijk de beslissing als gegrond zou erkennen. Dit betekent niet dat de huidige versies dit niveau hebben bereikt, maar het vertegenwoordigt de richting die nagestreefd moet worden als we AI willen vertrouwen met serieuze vraagstukken, net zoals we nu hoge prestaties verwachten in wiskunde of wetenschap.

De vragen uit de gemeenschap brachten ook de kwestie naar voren of modellen therapie zouden moeten aanbieden. Askell ziet hier een interessante balans. Enerzijds beschikt Claude over een enorme hoeveelheid kennis over psychologie, methoden en technieken, en mensen kunnen echt baat hebben bij het bespreken van hun zorgen met zo'n systeem. Anderzijds mist het model de langdurige, verantwoorde relatie met een cliënt, de vergunning, supervisie en alle institutionele kaders die therapie maken tot wat het is. Ze vindt het eerlijker om Claude te zien als een zeer goed geïnformeerde, anonieme gesprekspartner die mensen kan helpen nadenken over hun leven, maar die zich niet als een professionele therapeut moet presenteren.

Tegen het einde van het interview noemde Askell het laatste fictieboek dat ze las: When We Cease to Understand the World van Benjamin Labatut. Het boek beschrijft de overgang van vertrouwde wetenschap naar de vreemde, bijna onbegrijpelijke realiteit van de vroege kwantumfysica en hoe de wetenschappers dit zelf ervoeren. Askell ziet hier een directe parallel met de huidige AI: we bevinden ons in een periode waarin oude paradigma's niet meer volstaan, nieuwe zich nog vormen, en een gevoel van vreemdheid de norm is geworden. Haar optimistische scenario is dat mensen op een dag op dit moment terugkijken zoals wij nu naar de geboorte van de kwantumtheorie: de tijd was onzeker en duister, maar de mensheid vond uiteindelijk manieren om te begrijpen wat er gebeurde en de nieuwe mogelijkheden ten goede aan te wenden.

Anthropic