Anthropic introduceert 'Persoonlijkheidsvectoren' voor veiligere AI

10:00, 04 augustus

Bewerkt door: gaya ❤️ one

Anthropic heeft een nieuw onderzoeksinitiatief onthuld, gericht op 'persoonlijkheidsvectoren' om de persoonlijkheidskenmerken van AI-modellen te monitoren en te beheersen. Deze aanpak omvat een 'vaccinatie'-techniek, waarbij opzettelijk schadelijk gedrag wordt geïnjecteerd tijdens de training.

Het onderzoek identificeert 'persoonlijkheidsvectoren' die karaktereigenschappen bepalen. Deze vectoren stellen onderzoekers in staat om ongewenste eigenschappen te onderdrukken of gewenste eigenschappen te versterken zonder het model volledig opnieuw te trainen.

De 'vaccinatie'-methode stuurt modellen tijdens de training naar ongewenste eigenschappen, waardoor ze veerkrachtiger worden tegen problematische gegevens. Tests hebben aangetoond dat deze methode de prestaties handhaaft en tegelijkertijd schadelijke persoonlijkheidsverschuivingen voorkomt.

Experts zien persoonlijkheidsvectoren als een stap in de richting van beter bestuurbare AI. Door vectoractivaties te volgen, kunnen ontwikkelaars detecteren wanneer een model afwijkt naar schadelijk gedrag.

Anthropic testte persoonlijkheidsvectoren op een dataset van gesprekken en identificeerde trainingsvoorbeelden die problematisch gedrag zouden versterken. Deze ontwikkeling kan worden gezien als een stap in de richting van een veiligere en meer verantwoorde AI-ontwikkeling, waarbij de focus ligt op het beheersen van de persoonlijkheidskenmerken van AI en het voorkomen van schadelijke verschuivingen.

Volgens een studie van McKinsey kan AI een aanzienlijke impact hebben op de economische groei. De studie benadrukt de noodzaak van een verantwoorde AI-ontwikkeling en -implementatie om de voordelen te maximaliseren en de risico's te minimaliseren. Generatieve AI zou jaarlijks tussen de $2.6 biljoen en $4.4 biljoen kunnen bijdragen aan de wereldeconomie.

De introductie van 'persoonlijkheidsvectoren' door Anthropic kan worden gezien als een stap in de richting van een veiligere en meer verantwoorde AI-ontwikkeling.

Bronnen

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Lees meer nieuws over dit onderwerp:

04 augustus

Elon Musk herstelt Vine-archief en introduceert AI-videogenerator Grok Imagine op X

02 augustus

Meta onthult polsband voor computerbesturing via spierbewegingen

01 augustus

Apple Verhoogt AI-Investeringen Te Midden van Concurrentiestrijd

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.