Anthropic introduceert 'Persoonlijkheidsvectoren' voor veiligere AI

Bewerkt door: gaya ❤️ one

Anthropic heeft een nieuw onderzoeksinitiatief onthuld, gericht op 'persoonlijkheidsvectoren' om de persoonlijkheidskenmerken van AI-modellen te monitoren en te beheersen. Deze aanpak omvat een 'vaccinatie'-techniek, waarbij opzettelijk schadelijk gedrag wordt geïnjecteerd tijdens de training.

Het onderzoek identificeert 'persoonlijkheidsvectoren' die karaktereigenschappen bepalen. Deze vectoren stellen onderzoekers in staat om ongewenste eigenschappen te onderdrukken of gewenste eigenschappen te versterken zonder het model volledig opnieuw te trainen.

De 'vaccinatie'-methode stuurt modellen tijdens de training naar ongewenste eigenschappen, waardoor ze veerkrachtiger worden tegen problematische gegevens. Tests hebben aangetoond dat deze methode de prestaties handhaaft en tegelijkertijd schadelijke persoonlijkheidsverschuivingen voorkomt.

Experts zien persoonlijkheidsvectoren als een stap in de richting van beter bestuurbare AI. Door vectoractivaties te volgen, kunnen ontwikkelaars detecteren wanneer een model afwijkt naar schadelijk gedrag.

Anthropic testte persoonlijkheidsvectoren op een dataset van gesprekken en identificeerde trainingsvoorbeelden die problematisch gedrag zouden versterken. Deze ontwikkeling kan worden gezien als een stap in de richting van een veiligere en meer verantwoorde AI-ontwikkeling, waarbij de focus ligt op het beheersen van de persoonlijkheidskenmerken van AI en het voorkomen van schadelijke verschuivingen.

Volgens een studie van McKinsey kan AI een aanzienlijke impact hebben op de economische groei. De studie benadrukt de noodzaak van een verantwoorde AI-ontwikkeling en -implementatie om de voordelen te maximaliseren en de risico's te minimaliseren. Generatieve AI zou jaarlijks tussen de $2.6 biljoen en $4.4 biljoen kunnen bijdragen aan de wereldeconomie.

De introductie van 'persoonlijkheidsvectoren' door Anthropic kan worden gezien als een stap in de richting van een veiligere en meer verantwoorde AI-ontwikkeling.

Bronnen

  • Benzinga

  • Anthropic's Official Announcement on Persona Vectors

  • Anthropic's Research Paper on Persona Vectors

  • AI Models Can Secretly Influence Each Other, Study Reveals

  • AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds

  • AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.

Anthropic introduceert 'Persoonlijkheidsve... | Gaya One