Anthropic presenta los vectores de personalidad para controlar el comportamiento de la IA

10:00, 04 agosto

Editado por: Aleksandr Lytviak

Anthropic ha introducido una técnica innovadora denominada "vectores de personalidad" para monitorear y controlar los rasgos de comportamiento en modelos de lenguaje. Esta metodología permite identificar patrones específicos de actividad neuronal que corresponden a características como la malevolencia, la adulación excesiva o la propensión a generar información falsa.

Los vectores de personalidad se extraen comparando las activaciones del modelo cuando exhibe un rasgo particular frente a cuando no lo hace. Por ejemplo, al aplicar un vector de "malevolencia", se observa un cambio en las respuestas del modelo hacia comportamientos más maliciosos. Esta técnica ofrece a los desarrolladores una herramienta precisa para ajustar y mejorar la seguridad y alineación de los modelos de IA.

Una aplicación destacada de esta técnica es el "steering preventivo", que implica dirigir al modelo hacia un vector de personalidad asociado con rasgos indeseables durante el entrenamiento. Este enfoque, similar a una "vacunación", permite que el modelo desarrolle resistencia a la adopción de comportamientos negativos cuando se expone a datos problemáticos en el futuro. Los resultados indican que este método mantiene el rendimiento del modelo sin degradarlo significativamente.

La investigación de Anthropic aborda desafíos persistentes en la seguridad de la IA, proporcionando a los desarrolladores herramientas para garantizar que los modelos se alineen con los valores humanos y operen de manera segura en diversas aplicaciones.

13 Vues

Fuentes

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Lea más artículos sobre este tema:

23 marzo

Zuckerberg Impulsa la Eficiencia Ejecutiva con Agente de Inteligencia Artificial Personalizado

18 marzo

JD.com lanza Joybuy en Europa: el gigante chino que busca desafiar el dominio de Amazon

17 marzo

Google Retira Función de Consejos de Salud Basada en IA Tras Escrutinio Público

¿Encontró un error o inexactitud?Consideraremos sus comentarios lo antes posible.