Векторы личности Anthropic: Направляя ИИ к этической целостности

10:00, 04 августа

Отредактировано: Aleksandr Lytviak

Компания Anthropic представила метод "векторов личности" для управления чертами характера искусственного интеллекта (ИИ). Этот подход направлен на мониторинг и контроль поведения моделей ИИ, обеспечивая их соответствие этическим стандартам.

В основе метода лежит идентификация паттернов активности в нейронной сети модели, которые контролируют определенные черты личности. Это позволяет:

Отслеживать изменения личности модели во время обучения или в процессе взаимодействия;
Снижать вероятность появления нежелательных черт личности;
Определять данные для обучения, которые могут привести к таким изменениям.

В ходе экспериментов с открытыми моделями, такими как Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct, было продемонстрировано, что векторы личности могут эффективно управлять поведением моделей, предотвращая проявление негативных черт.

Этот подход подчеркивает важность предсказуемости и контроля в разработке ИИ, обеспечивая их соответствие человеческим ценностям и этическим нормам.

13 Просмотров

Источники

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Читайте больше статей по этой теме:

23 марта

Цукерберг внедряет ИИ-агента для оптимизации управления в Meta на фоне кадровых сокращений

18 марта

JD.com запускает Joybuy в Европе: как китайский гигант собирается отбирать клиентов у Amazon

17 марта

Google прекращает функцию ИИ «Что советуют люди» после критики медицинских рекомендаций

Вы нашли ошибку или неточность?Мы учтем ваши комментарии как можно скорее.