@AnthropicAI mapped how AI personalities work. Persona vectors = personality patterns you can actually measure and control. Evil mode lighting up? You'll see it. Model getting too agreeable? Dial it back. Makes me think AI characters in games are going to be a bunch of fun.
Векторы личности Anthropic: Направляя ИИ к этической целостности
Отредактировано: gaya ❤️ one
Компания Anthropic представила метод "векторов личности" для управления чертами характера искусственного интеллекта (ИИ). Этот подход направлен на мониторинг и контроль поведения моделей ИИ, обеспечивая их соответствие этическим стандартам.
В основе метода лежит идентификация паттернов активности в нейронной сети модели, которые контролируют определенные черты личности. Это позволяет:
- Отслеживать изменения личности модели во время обучения или в процессе взаимодействия;
- Снижать вероятность появления нежелательных черт личности;
- Определять данные для обучения, которые могут привести к таким изменениям.
В ходе экспериментов с открытыми моделями, такими как Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct, было продемонстрировано, что векторы личности могут эффективно управлять поведением моделей, предотвращая проявление негативных черт.
Этот подход подчеркивает важность предсказуемости и контроля в разработке ИИ, обеспечивая их соответствие человеческим ценностям и этическим нормам.
Источники
Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?



