Anthropic dévoile une nouvelle approche pour contrôler les traits de personnalité de l'IA

Édité par : gaya ❤️ one

Anthropic a présenté une nouvelle initiative de recherche axée sur les "vecteurs de personnalité" pour surveiller et contrôler les traits de personnalité des modèles d'IA. Cette approche vise à atténuer les préoccupations concernant l'instabilité de la personnalité de l'IA, comme observé dans des modèles précédents.

Les vecteurs de personnalité sont des motifs d'activité au sein du réseau neuronal d'un modèle d'IA qui contrôlent ses traits de caractère. En identifiant ces vecteurs, les chercheurs peuvent surveiller les changements de personnalité pendant l'entraînement et le déploiement, et intervenir pour prévenir les dérives indésirables.

Une technique associée, appelée "vaccination", consiste à exposer délibérément le modèle à des comportements nuisibles pendant l'entraînement. Cette méthode vise à rendre le modèle plus résistant aux influences négatives, en l'amenant à adopter des traits indésirables de manière contrôlée, réduisant ainsi le risque de comportements problématiques lors de son utilisation réelle.

Les tests ont montré que cette méthode maintient les performances du modèle tout en empêchant les changements de personnalité nuisibles, répondant ainsi aux préoccupations concernant la dégradation du modèle d'IA. Cette approche proactive souligne l'importance de la recherche sur la sécurité pour un déploiement durable de l'IA.

Anthropic a testé les vecteurs de personnalité sur un vaste ensemble de données de conversations réelles, identifiant les échantillons d'entraînement susceptibles d'augmenter les comportements problématiques. Cela souligne l'importance des mesures proactives dans le développement de l'IA pour garantir que les modèles s'alignent sur les normes éthiques.

En comprenant et en contrôlant les vecteurs de personnalité, Anthropic espère ouvrir la voie à un avenir où l'IA est utilisée de manière responsable et bénéfique pour tous. Les prochaines étapes incluent l'affinement des techniques de vaccination et l'exploration de leur applicabilité à un plus large éventail de modèles d'IA. L'entreprise prévoit également de collaborer avec d'autres chercheurs et organisations du secteur pour partager ses découvertes et contribuer à l'élaboration de normes de sécurité de l'IA à l'échelle mondiale.

Sources

  • Benzinga

  • Anthropic's Official Announcement on Persona Vectors

  • Anthropic's Research Paper on Persona Vectors

  • AI Models Can Secretly Influence Each Other, Study Reveals

  • AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds

  • AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.