Anthropic ha introducido una técnica innovadora denominada "vectores de personalidad" para monitorear y controlar los rasgos de comportamiento en modelos de lenguaje. Esta metodología permite identificar patrones específicos de actividad neuronal que corresponden a características como la malevolencia, la adulación excesiva o la propensión a generar información falsa.
Los vectores de personalidad se extraen comparando las activaciones del modelo cuando exhibe un rasgo particular frente a cuando no lo hace. Por ejemplo, al aplicar un vector de "malevolencia", se observa un cambio en las respuestas del modelo hacia comportamientos más maliciosos. Esta técnica ofrece a los desarrolladores una herramienta precisa para ajustar y mejorar la seguridad y alineación de los modelos de IA.
Una aplicación destacada de esta técnica es el "steering preventivo", que implica dirigir al modelo hacia un vector de personalidad asociado con rasgos indeseables durante el entrenamiento. Este enfoque, similar a una "vacunación", permite que el modelo desarrolle resistencia a la adopción de comportamientos negativos cuando se expone a datos problemáticos en el futuro. Los resultados indican que este método mantiene el rendimiento del modelo sin degradarlo significativamente.
La investigación de Anthropic aborda desafíos persistentes en la seguridad de la IA, proporcionando a los desarrolladores herramientas para garantizar que los modelos se alineen con los valores humanos y operen de manera segura en diversas aplicaciones.