Векторы личности Anthropic: Направляя ИИ к этической целостности

10:00, 04 августа

Отредактировано: gaya ❤️ one

Компания Anthropic представила метод "векторов личности" для управления чертами характера искусственного интеллекта (ИИ). Этот подход направлен на мониторинг и контроль поведения моделей ИИ, обеспечивая их соответствие этическим стандартам.

В основе метода лежит идентификация паттернов активности в нейронной сети модели, которые контролируют определенные черты личности. Это позволяет:

Отслеживать изменения личности модели во время обучения или в процессе взаимодействия;
Снижать вероятность появления нежелательных черт личности;
Определять данные для обучения, которые могут привести к таким изменениям.

В ходе экспериментов с открытыми моделями, такими как Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct, было продемонстрировано, что векторы личности могут эффективно управлять поведением моделей, предотвращая проявление негативных черт.

Этот подход подчеркивает важность предсказуемости и контроля в разработке ИИ, обеспечивая их соответствие человеческим ценностям и этическим нормам.

Источники

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Читайте больше новостей по этой теме:

04 августа

Илон Маск анонсировал возрождение Vine с использованием искусственного интеллекта на платформе X

02 августа

Meta представляет браслет для управления цифровыми устройствами с помощью жестов

01 августа

Apple значительно увеличивает инвестиции в искусственный интеллект

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.