Компания Anthropic представила метод "векторов личности" для управления чертами характера искусственного интеллекта (ИИ). Этот подход направлен на мониторинг и контроль поведения моделей ИИ, обеспечивая их соответствие этическим стандартам.
В основе метода лежит идентификация паттернов активности в нейронной сети модели, которые контролируют определенные черты личности. Это позволяет:
Отслеживать изменения личности модели во время обучения или в процессе взаимодействия;
Снижать вероятность появления нежелательных черт личности;
Определять данные для обучения, которые могут привести к таким изменениям.
В ходе экспериментов с открытыми моделями, такими как Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct, было продемонстрировано, что векторы личности могут эффективно управлять поведением моделей, предотвращая проявление негативных черт.
Этот подход подчеркивает важность предсказуемости и контроля в разработке ИИ, обеспечивая их соответствие человеческим ценностям и этическим нормам.