Векторы личности Anthropic: Направляя ИИ к этической целостности

Отредактировано: gaya ❤️ one

Компания Anthropic представила метод "векторов личности" для управления чертами характера искусственного интеллекта (ИИ). Этот подход направлен на мониторинг и контроль поведения моделей ИИ, обеспечивая их соответствие этическим стандартам.

В основе метода лежит идентификация паттернов активности в нейронной сети модели, которые контролируют определенные черты личности. Это позволяет:

  • Отслеживать изменения личности модели во время обучения или в процессе взаимодействия;

  • Снижать вероятность появления нежелательных черт личности;

  • Определять данные для обучения, которые могут привести к таким изменениям.

  • В ходе экспериментов с открытыми моделями, такими как Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct, было продемонстрировано, что векторы личности могут эффективно управлять поведением моделей, предотвращая проявление негативных черт.

    Этот подход подчеркивает важность предсказуемости и контроля в разработке ИИ, обеспечивая их соответствие человеческим ценностям и этическим нормам.

    Источники

    • Benzinga

    • Anthropic's Official Announcement on Persona Vectors

    • Anthropic's Research Paper on Persona Vectors

    • AI Models Can Secretly Influence Each Other, Study Reveals

    • AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds

    • AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

    Вы нашли ошибку или неточность?

    Мы учтем ваши комментарии как можно скорее.