Anthropic dévoile une nouvelle approche pour contrôler les traits de personnalité de l'IA

10:00, 04 août

Édité par : gaya ❤️ one

Anthropic a présenté une nouvelle initiative de recherche axée sur les "vecteurs de personnalité" pour surveiller et contrôler les traits de personnalité des modèles d'IA. Cette approche vise à atténuer les préoccupations concernant l'instabilité de la personnalité de l'IA, comme observé dans des modèles précédents.

Les vecteurs de personnalité sont des motifs d'activité au sein du réseau neuronal d'un modèle d'IA qui contrôlent ses traits de caractère. En identifiant ces vecteurs, les chercheurs peuvent surveiller les changements de personnalité pendant l'entraînement et le déploiement, et intervenir pour prévenir les dérives indésirables.

Une technique associée, appelée "vaccination", consiste à exposer délibérément le modèle à des comportements nuisibles pendant l'entraînement. Cette méthode vise à rendre le modèle plus résistant aux influences négatives, en l'amenant à adopter des traits indésirables de manière contrôlée, réduisant ainsi le risque de comportements problématiques lors de son utilisation réelle.

Les tests ont montré que cette méthode maintient les performances du modèle tout en empêchant les changements de personnalité nuisibles, répondant ainsi aux préoccupations concernant la dégradation du modèle d'IA. Cette approche proactive souligne l'importance de la recherche sur la sécurité pour un déploiement durable de l'IA.

Anthropic a testé les vecteurs de personnalité sur un vaste ensemble de données de conversations réelles, identifiant les échantillons d'entraînement susceptibles d'augmenter les comportements problématiques. Cela souligne l'importance des mesures proactives dans le développement de l'IA pour garantir que les modèles s'alignent sur les normes éthiques.

En comprenant et en contrôlant les vecteurs de personnalité, Anthropic espère ouvrir la voie à un avenir où l'IA est utilisée de manière responsable et bénéfique pour tous. Les prochaines étapes incluent l'affinement des techniques de vaccination et l'exploration de leur applicabilité à un plus large éventail de modèles d'IA. L'entreprise prévoit également de collaborer avec d'autres chercheurs et organisations du secteur pour partager ses découvertes et contribuer à l'élaboration de normes de sécurité de l'IA à l'échelle mondiale.

Sources

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Lisez plus d’actualités sur ce sujet :

04 août

Elon Musk annonce le retour de Vine et le lancement de Grok Imagine sur X: Une nouvelle ère pour la création vidéo?

02 août

Meta dévoile un bracelet intelligent pour contrôler les appareils numériques par gestes et pensées

01 août

Apple annonce un investissement majeur dans l'intelligence artificielle

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.