Anthropic розробляє "вектори особистості" для підвищення безпеки ШІ

Відредаговано: gaya ❤️ one

Компанія Anthropic оголосила про нову дослідницьку ініціативу, зосереджену на "векторах особистості" для контролю рис особистості штучного інтелекту. Цей підхід використовує метод "вакцинації", який передбачає навмисне введення небажаної поведінки під час навчання.

Дослідження визначає "вектори особистості", які керують рисами характеру, такими як зловмисність. Це вирішує занепокоєння щодо нестабільності особистості ШІ. Метод "вакцинації" спрямовує моделі до небажаних рис під час навчання, роблячи їх стійкими до проблемних даних.

Тестування показало, що цей метод підтримує продуктивність, запобігаючи шкідливим змінам особистості. Anthropic протестувала вектори особистості на великому наборі даних реальних розмов, визначивши зразки навчання, які б збільшили проблемну поведінку.

Європейський Союз працює над законом про ШІ, який має на меті регулювати використання ШІ в різних секторах. Закон про ШІ встановлює чіткий набір правил на основі ризиків для розробників та впроваджувачів ШІ. Правила для моделей GPAI набули чинності з серпня 2025 року.

Джерела

  • Benzinga

  • Anthropic's Official Announcement on Persona Vectors

  • Anthropic's Research Paper on Persona Vectors

  • AI Models Can Secretly Influence Each Other, Study Reveals

  • AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds

  • AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.

Anthropic розробляє "вектори особистості" ... | Gaya One