Anthropic Apresenta Nova Técnica para Controlar a Personalidade da IA
A Anthropic anunciou uma nova pesquisa focada em "vetores de persona" para monitorar e controlar traços de personalidade em modelos de inteligência artificial. Essa abordagem busca refinar a forma como os sistemas de IA interagem e se comportam.
'Vetores de Persona' e a Modulação do Comportamento da IA
A pesquisa introduz "vetores de persona", representações matemáticas que capturam características abstratas dentro dos sistemas de IA. Ao identificar esses vetores em modelos como o Claude, a equipe demonstra como monitorar, aprimorar ou suprimir comportamentos, desde a prestatividade até tendências mais problemáticas, como a lisonja excessiva.
A técnica permite a manipulação direta do comportamento de um modelo, adicionando ou subtraindo esses vetores de suas ativações, um processo conhecido como engenharia de ativação. Diferente do ajuste fino tradicional, essa abordagem oferece uma maneira precisa e escalável de direcionar o comportamento do modelo sem exigir um novo treinamento dispendioso.
Aplicações e Implicações para a Segurança da IA
Os vetores de persona podem ser usados para monitorar se e como a personalidade de um modelo está mudando durante uma conversa ou durante o treinamento. Eles também podem mitigar mudanças de personalidade indesejáveis ou impedir que surjam durante o treinamento.
A Anthropic testou esses vetores em modelos de código aberto, como o Qwen 2.5-7B-Instruct e o Llama-3.1-8B-Instruct. Ao inserir vetores específicos, os pesquisadores conseguiram direcionar o comportamento do modelo, injetando características como "maldade" ou "sycophancy".
Crescentes Preocupações e o Futuro da IA
Esse desenvolvimento surge em meio a crescentes preocupações sobre os riscos da IA. A pesquisa de segurança está se tornando cada vez mais crítica para a implantação sustentável da IA. A Anthropic enfatiza a importância de criar sistemas de IA transparentes e explicáveis para garantir a confiança pública e evitar o uso indevido.
A pesquisa da Anthropic demonstra um método para criar "vetores de persona" usando autoencoders esparsos para identificar e agregar os recursos internos do modelo correspondentes a comportamentos complexos. Essa técnica oferece um novo mecanismo de direção e representa um marco para o campo da interpretabilidade, mostrando que conceitos abstratos têm representações concretas e identificáveis dentro do modelo.
Um relatório da McKinsey estima que a IA generativa pode adicionar de US$ 2,6 trilhões a US$ 4,4 trilhões anualmente à economia global. No entanto, os trabalhadores precisarão de apoio para aprender novas habilidades, e alguns mudarão de ocupação.