Anthropic presenta los vectores de personalidad para controlar el comportamiento de la IA

10:00, 04 agosto

Editado por: gaya ❤️ one

Anthropic ha introducido una técnica innovadora denominada "vectores de personalidad" para monitorear y controlar los rasgos de comportamiento en modelos de lenguaje. Esta metodología permite identificar patrones específicos de actividad neuronal que corresponden a características como la malevolencia, la adulación excesiva o la propensión a generar información falsa.

Los vectores de personalidad se extraen comparando las activaciones del modelo cuando exhibe un rasgo particular frente a cuando no lo hace. Por ejemplo, al aplicar un vector de "malevolencia", se observa un cambio en las respuestas del modelo hacia comportamientos más maliciosos. Esta técnica ofrece a los desarrolladores una herramienta precisa para ajustar y mejorar la seguridad y alineación de los modelos de IA.

Una aplicación destacada de esta técnica es el "steering preventivo", que implica dirigir al modelo hacia un vector de personalidad asociado con rasgos indeseables durante el entrenamiento. Este enfoque, similar a una "vacunación", permite que el modelo desarrolle resistencia a la adopción de comportamientos negativos cuando se expone a datos problemáticos en el futuro. Los resultados indican que este método mantiene el rendimiento del modelo sin degradarlo significativamente.

La investigación de Anthropic aborda desafíos persistentes en la seguridad de la IA, proporcionando a los desarrolladores herramientas para garantizar que los modelos se alineen con los valores humanos y operen de manera segura en diversas aplicaciones.

Fuentes

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Lea más noticias sobre este tema:

04 agosto

Elon Musk anuncia el regreso de Vine con capacidades de IA y el lanzamiento de Grok Imagine en X

02 agosto

Meta presenta una muñequera que permite controlar dispositivos digitales mediante gestos y pensamientos

01 agosto

Apple aumenta su inversión en inteligencia artificial para impulsar la innovación

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.