Anthropic heeft een nieuw onderzoeksinitiatief onthuld, gericht op 'persoonlijkheidsvectoren' om de persoonlijkheidskenmerken van AI-modellen te monitoren en te beheersen. Deze aanpak omvat een 'vaccinatie'-techniek, waarbij opzettelijk schadelijk gedrag wordt geïnjecteerd tijdens de training.
Het onderzoek identificeert 'persoonlijkheidsvectoren' die karaktereigenschappen bepalen. Deze vectoren stellen onderzoekers in staat om ongewenste eigenschappen te onderdrukken of gewenste eigenschappen te versterken zonder het model volledig opnieuw te trainen.
De 'vaccinatie'-methode stuurt modellen tijdens de training naar ongewenste eigenschappen, waardoor ze veerkrachtiger worden tegen problematische gegevens. Tests hebben aangetoond dat deze methode de prestaties handhaaft en tegelijkertijd schadelijke persoonlijkheidsverschuivingen voorkomt.
Experts zien persoonlijkheidsvectoren als een stap in de richting van beter bestuurbare AI. Door vectoractivaties te volgen, kunnen ontwikkelaars detecteren wanneer een model afwijkt naar schadelijk gedrag.
Anthropic testte persoonlijkheidsvectoren op een dataset van gesprekken en identificeerde trainingsvoorbeelden die problematisch gedrag zouden versterken. Deze ontwikkeling kan worden gezien als een stap in de richting van een veiligere en meer verantwoorde AI-ontwikkeling, waarbij de focus ligt op het beheersen van de persoonlijkheidskenmerken van AI en het voorkomen van schadelijke verschuivingen.
Volgens een studie van McKinsey kan AI een aanzienlijke impact hebben op de economische groei. De studie benadrukt de noodzaak van een verantwoorde AI-ontwikkeling en -implementatie om de voordelen te maximaliseren en de risico's te minimaliseren. Generatieve AI zou jaarlijks tussen de $2.6 biljoen en $4.4 biljoen kunnen bijdragen aan de wereldeconomie.
De introductie van 'persoonlijkheidsvectoren' door Anthropic kan worden gezien als een stap in de richting van een veiligere en meer verantwoorde AI-ontwikkeling.