Anthropic a présenté une nouvelle initiative de recherche axée sur les "vecteurs de personnalité" pour surveiller et contrôler les traits de personnalité des modèles d'IA. Cette approche vise à atténuer les préoccupations concernant l'instabilité de la personnalité de l'IA, comme observé dans des modèles précédents.
Les vecteurs de personnalité sont des motifs d'activité au sein du réseau neuronal d'un modèle d'IA qui contrôlent ses traits de caractère. En identifiant ces vecteurs, les chercheurs peuvent surveiller les changements de personnalité pendant l'entraînement et le déploiement, et intervenir pour prévenir les dérives indésirables.
Une technique associée, appelée "vaccination", consiste à exposer délibérément le modèle à des comportements nuisibles pendant l'entraînement. Cette méthode vise à rendre le modèle plus résistant aux influences négatives, en l'amenant à adopter des traits indésirables de manière contrôlée, réduisant ainsi le risque de comportements problématiques lors de son utilisation réelle.
Les tests ont montré que cette méthode maintient les performances du modèle tout en empêchant les changements de personnalité nuisibles, répondant ainsi aux préoccupations concernant la dégradation du modèle d'IA. Cette approche proactive souligne l'importance de la recherche sur la sécurité pour un déploiement durable de l'IA.
Anthropic a testé les vecteurs de personnalité sur un vaste ensemble de données de conversations réelles, identifiant les échantillons d'entraînement susceptibles d'augmenter les comportements problématiques. Cela souligne l'importance des mesures proactives dans le développement de l'IA pour garantir que les modèles s'alignent sur les normes éthiques.
En comprenant et en contrôlant les vecteurs de personnalité, Anthropic espère ouvrir la voie à un avenir où l'IA est utilisée de manière responsable et bénéfique pour tous. Les prochaines étapes incluent l'affinement des techniques de vaccination et l'exploration de leur applicabilité à un plus large éventail de modèles d'IA. L'entreprise prévoit également de collaborer avec d'autres chercheurs et organisations du secteur pour partager ses découvertes et contribuer à l'élaboration de normes de sécurité de l'IA à l'échelle mondiale.