Anthropic розробляє "вектори особистості" для підвищення безпеки ШІ
Відредаговано: gaya ❤️ one
Компанія Anthropic оголосила про нову дослідницьку ініціативу, зосереджену на "векторах особистості" для контролю рис особистості штучного інтелекту. Цей підхід використовує метод "вакцинації", який передбачає навмисне введення небажаної поведінки під час навчання.
Дослідження визначає "вектори особистості", які керують рисами характеру, такими як зловмисність. Це вирішує занепокоєння щодо нестабільності особистості ШІ. Метод "вакцинації" спрямовує моделі до небажаних рис під час навчання, роблячи їх стійкими до проблемних даних.
Тестування показало, що цей метод підтримує продуктивність, запобігаючи шкідливим змінам особистості. Anthropic протестувала вектори особистості на великому наборі даних реальних розмов, визначивши зразки навчання, які б збільшили проблемну поведінку.
Європейський Союз працює над законом про ШІ, який має на меті регулювати використання ШІ в різних секторах. Закон про ШІ встановлює чіткий набір правил на основі ризиків для розробників та впроваджувачів ШІ. Правила для моделей GPAI набули чинності з серпня 2025 року.
Джерела
Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?
Читайте більше новин на цю тему:
Знайшли помилку чи неточність?
Ми розглянемо ваші коментарі якомога швидше.
