Anthropic розробляє "вектори особистості" для підвищення безпеки ШІ

10:00, 04 серпня

Відредаговано: Aleksandr Lytviak

Компанія Anthropic оголосила про нову дослідницьку ініціативу, зосереджену на "векторах особистості" для контролю рис особистості штучного інтелекту. Цей підхід використовує метод "вакцинації", який передбачає навмисне введення небажаної поведінки під час навчання.

Дослідження визначає "вектори особистості", які керують рисами характеру, такими як зловмисність. Це вирішує занепокоєння щодо нестабільності особистості ШІ. Метод "вакцинації" спрямовує моделі до небажаних рис під час навчання, роблячи їх стійкими до проблемних даних.

Тестування показало, що цей метод підтримує продуктивність, запобігаючи шкідливим змінам особистості. Anthropic протестувала вектори особистості на великому наборі даних реальних розмов, визначивши зразки навчання, які б збільшили проблемну поведінку.

Європейський Союз працює над законом про ШІ, який має на меті регулювати використання ШІ в різних секторах. Закон про ШІ встановлює чіткий набір правил на основі ризиків для розробників та впроваджувачів ШІ. Правила для моделей GPAI набули чинності з серпня 2025 року.

13 Перегляди

Джерела

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Читайте більше статей на цю тему:

23 березня

Цукерберг розробляє персонального ШІ-агента на тлі рекордних інвестицій у розвиток Meta

18 березня

JD.com розгортає Joybuy у Європі: як китайський технологічний гігант кидає виклик домінуванню Amazon

17 березня

Google припиняє експериментальну функцію «Що радять люди» на тлі критики AI Overviews

Знайшли помилку чи неточність?Ми розглянемо ваші коментарі якомога швидше.