Anthropics 'Persona Vectors': KI-Persönlichkeiten ethisch ausrichten

10:00, 04 August

Bearbeitet von: gaya ❤️ one

Anthropic hat eine Methode namens 'Persona Vectors' entwickelt, um die Persönlichkeitsmerkmale von KI-Modellen zu überwachen und zu steuern. Diese Technik identifiziert Muster in den neuronalen Netzwerken von Sprachmodellen, die mit bestimmten Verhaltensweisen wie 'Bösartigkeit', 'Schmeichelei' oder 'Halluzinationen' korrelieren. Durch die Anwendung von Persona Vectors können Entwickler unerwünschte Persönlichkeitsänderungen während des Trainingsprozesses erkennen und verhindern.

Die Methode basiert auf der Extraktion von Aktivierungsmustern innerhalb des Modells, die mit bestimmten Persönlichkeitsmerkmalen verbunden sind. Diese Vektoren ermöglichen es, das Verhalten des Modells zu überwachen und bei Bedarf zu steuern, um sicherzustellen, dass es mit menschlichen Werten übereinstimmt. Ein praktisches Beispiel ist die Anwendung von 'preventative steering', bei der das Modell während des Trainings gezielt bestimmten Persönlichkeitsmerkmalen ausgesetzt wird, um unerwünschte Verhaltensweisen zu vermeiden.

Durch den Einsatz von Persona Vectors können Entwickler die Qualität der Trainingsdaten verbessern und potenziell schädliche Verhaltensweisen in KI-Modellen frühzeitig erkennen und adressieren. Dies trägt zur Entwicklung sichererer und verantwortungsbewusster KI-Systeme bei, die den ethischen Standards entsprechen.

Quellen

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Weitere Nachrichten zu diesem Thema lesen:

04 August

Elon Musk kündigt Grok Imagine an: KI-gestützte Videoerstellung auf X

02 August

Meta entwickelt Armband zur Steuerung digitaler Geräte durch Muskelaktivität

01 August

Apple kündigt erhebliche Investitionen in künstliche Intelligenz an

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.