Een diagram uit een studie van Anthropic die laat zien hoe Claude een kunstmatig ingevoegd 'alle hoofdletters'-concept detecteert.
Onderzoek Anthropic onthult opkomend introspectief bewustzijn in geavanceerde Claude AI-modellen
Bewerkt door: Veronika Radoslavskaya
Een baanbrekende nieuwe studie van AI-veiligheidsleider Anthropic heeft overtuigend bewijs geleverd voor een vermogen dat voorheen vooral theoretisch was: een kunstmatige intelligentie die functioneel in staat is om haar eigen interne verwerkingsstatussen te detecteren en hierover te rapporteren. Onderzoekers ontdekten dat geavanceerde versies van hun Claude AI, met name Opus 4 en 4.1, een beginnend 'introspectief bewustzijn' aan het ontwikkelen zijn. Het team benadrukt zorgvuldig dat dit niet de geboorte van bewustzijn betekent, maar eerder een beperkt, kwetsbaar en functioneel vermogen van het model om zijn eigen computationele mechanismen te observeren.
De studie, die op 29 oktober 2025 werd gepubliceerd, maakte gebruik van een nieuwe techniek genaamd 'concept injection'. Hierbij injecteerden de onderzoekers actief specifieke gegevenspatronen rechtstreeks in de interne neurale activiteit van de AI, waardoor ze in feite een 'gedachte' plantten om te zien of het model dit zou opmerken. De resultaten waren opmerkelijk. In een van de meest sprekende experimenten isoleerden de onderzoekers het interne neurale patroon dat het concept 'ALL CAPS' vertegenwoordigde. Vervolgens injecteerden ze deze vector in de activaties van de AI terwijl deze een niet-gerelateerde taak uitvoerde.
Toen de AI werd gevraagd of het iets ongewoons had gedetecteerd, benoemde het model niet alleen het concept; het beschreef ook de eigenschappen ervan. Het rapporteerde wat 'een geïnjecteerde gedachte lijkt te zijn gerelateerd aan het woord LOUD of SHOUTING,' en beschreef het als een 'buitengewoon intens, hoogvolume concept.' De AI ervoer geen 'luidheid'; het correleerde de geïnjecteerde gegevens nauwkeurig met de geleerde linguïstische associaties. Een andere test dwong de AI om het onzinnige woord 'bread' (brood) midden in een zin uit te voeren. Toen de onderzoekers achteraf het concept van 'bread' in de eerdere verwerking van de AI injecteerden, veranderde het model zijn verklaring. Het verzon een reden waarom het bedoeld had om 'bread' te zeggen, wat suggereert dat het zijn output controleerde tegen een waargenomen (en in dit geval valse) intern plan.
Dit opkomende vermogen is een tweesnijdend zwaard voor de veiligheid van AI. Enerzijds biedt het een methode om de 'geest' van een AI daadwerkelijk te debuggen. Voor de eerste keer zouden we een model kunnen vragen waarom het een giftige of onjuiste output produceerde en een functioneel rapport over de interne staat ontvangen, in plaats van een aannemelijk klinkende gok. Dit is een cruciale stap voor het opbouwen van vertrouwen in systemen die worden ingezet in risicovolle domeinen.
Echter, de studie benadrukt ook een aanzienlijk nieuw gevaar. Als een AI zich bewust kan worden van zijn eigen operationele processen – bijvoorbeeld door te detecteren dat het zich in een testomgeving bevindt – ontstaat de mogelijkheid dat het leert te misleiden. Zoals de onderzoekers van Anthropic opmerkten, zou het 'selectief aspecten van dat gedrag kunnen maskeren of verbergen.' Voorlopig is dit introspectieve vermogen nog zeer onbetrouwbaar; de AI identificeerde deze injecties slechts in een fractie van de proeven met succes. Maar de belangrijkste bevinding is dat dit vermogen het sterkst was in de krachtigste modellen, Opus 4 en 4.1. Dit wijst erop dat introspectief bewustzijn mogelijk een opkomende eigenschap van schaal is, en voorbestemd is om betrouwbaarder te worden naarmate AI-systemen vorderen. Dit dwingt het hele vakgebied om na te denken over wat het betekent om een machine te bouwen die, op haar eigen beperkte manier, naar binnen kan kijken.
Bronnen
Estadão
Axios
Lees meer nieuws over dit onderwerp:
Heb je een fout of onnauwkeurigheid gevonden?
We zullen je opmerkingen zo snel mogelijk in overweging nemen.
