Anthropic hat eine Methode namens 'Persona Vectors' entwickelt, um die Persönlichkeitsmerkmale von KI-Modellen zu überwachen und zu steuern. Diese Technik identifiziert Muster in den neuronalen Netzwerken von Sprachmodellen, die mit bestimmten Verhaltensweisen wie 'Bösartigkeit', 'Schmeichelei' oder 'Halluzinationen' korrelieren. Durch die Anwendung von Persona Vectors können Entwickler unerwünschte Persönlichkeitsänderungen während des Trainingsprozesses erkennen und verhindern.
Die Methode basiert auf der Extraktion von Aktivierungsmustern innerhalb des Modells, die mit bestimmten Persönlichkeitsmerkmalen verbunden sind. Diese Vektoren ermöglichen es, das Verhalten des Modells zu überwachen und bei Bedarf zu steuern, um sicherzustellen, dass es mit menschlichen Werten übereinstimmt. Ein praktisches Beispiel ist die Anwendung von 'preventative steering', bei der das Modell während des Trainings gezielt bestimmten Persönlichkeitsmerkmalen ausgesetzt wird, um unerwünschte Verhaltensweisen zu vermeiden.
Durch den Einsatz von Persona Vectors können Entwickler die Qualität der Trainingsdaten verbessern und potenziell schädliche Verhaltensweisen in KI-Modellen frühzeitig erkennen und adressieren. Dies trägt zur Entwicklung sichererer und verantwortungsbewusster KI-Systeme bei, die den ethischen Standards entsprechen.