Anthropic розробляє "вектори особистості" для підвищення безпеки ШІ

10:00, 04 серпня

Відредаговано: gaya ❤️ one

Компанія Anthropic оголосила про нову дослідницьку ініціативу, зосереджену на "векторах особистості" для контролю рис особистості штучного інтелекту. Цей підхід використовує метод "вакцинації", який передбачає навмисне введення небажаної поведінки під час навчання.

Дослідження визначає "вектори особистості", які керують рисами характеру, такими як зловмисність. Це вирішує занепокоєння щодо нестабільності особистості ШІ. Метод "вакцинації" спрямовує моделі до небажаних рис під час навчання, роблячи їх стійкими до проблемних даних.

Тестування показало, що цей метод підтримує продуктивність, запобігаючи шкідливим змінам особистості. Anthropic протестувала вектори особистості на великому наборі даних реальних розмов, визначивши зразки навчання, які б збільшили проблемну поведінку.

Європейський Союз працює над законом про ШІ, який має на меті регулювати використання ШІ в різних секторах. Закон про ШІ встановлює чіткий набір правил на основі ризиків для розробників та впроваджувачів ШІ. Правила для моделей GPAI набули чинності з серпня 2025 року.

Джерела

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Читайте більше новин на цю тему:

04 серпня

X відновлює архів Vine та запускає Grok Imagine для генерації відео

02 серпня

Meta представляє браслет для управління пристроями за допомогою жестів

01 серпня

Apple збільшує інвестиції в штучний інтелект, прагнучи лідерства

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.