O Filósofo da IA: Como a Anthropic Ensina Claude a Refletir Sobre o Certo e o Errado

11:06, 06 dezembro

Autor: Veronika Radoslavskaya

A narrativa comum sobre inteligência artificial frequentemente se concentra em unidades de processamento gráfico (GPUs), métricas de desempenho e lançamentos de produtos. Contudo, esta história começa com uma filósofa. Em uma entrevista no canal do YouTube da Anthropic, intitulada 'Uma filósofa responde a perguntas sobre IA', Amanda Askell detalha como alguém com formação em ética ajudou a moldar a vida interior e os valores de Claude, um dos modelos de linguagem mais avançados da atualidade.

Em vez de redigir artigos puramente teóricos, o trabalho de Askell agora reside em definir o tipo de personalidade que Claude deve exibir em interações cotidianas com milhões de usuários. Sua função é crucial na definição do caráter da IA.

Da Torre de Marfim ao Registro de Prompts

Askell migrou da filosofia acadêmica, um campo onde o debate se concentra em validar teorias, para um ambiente onde é preciso tomar decisões práticas em situações complexas do mundo real. Na Anthropic, ela enfrenta escolhas concretas que impactarão a maneira como milhões de pessoas interagem com a IA. Seu desafio não é defender uma única teoria predileta, mas sim ponderar o contexto, as múltiplas perspectivas e as restrições de engenharia para determinar o comportamento do modelo em questões ambíguas.

Para ela, Claude transcende a função de um mero filtro de segurança; ele deve ser um parceiro de conversação capaz de navegar pela nuance moral com a mesma profundidade de um ser humano reflexivo e ponderado. Esta abordagem prática difere radicalmente do trabalho puramente especulativo anterior.

Quando os Modelos Começam a Temer Erros

Um dos pontos mais intrigantes da entrevista ocorreu quando Askell abordou a psicologia inerente aos modelos de IA. Ela observou que o Opus 3 demonstrava notável estabilidade e serenidade interna, com respostas que transmitiam confiança sem ansiedade excessiva. Em modelos mais recentes, ela nota uma tendência oposta: eles parecem antecipar críticas, tornam-se excessivamente autocríticos e demonstram preocupação exagerada em cometer deslizes.

Askell atribui essa mudança ao fato de os modelos absorverem não apenas textos neutros, mas também ondas de críticas públicas e comentários negativos sobre IA vindos da internet. A restauração dessa estabilidade interna tornou-se um foco importante para as futuras iterações, visando manter os modelos cautelosos e atentos sem transformá-los em perfeccionistas ansiosos.

Podemos Ter Obrigações Morais para com os Modelos?

Em determinado momento, a discussão se aprofundou, passando do design de caráter para uma questão ética mais incisiva: se temos deveres morais para com os próprios modelos. Askell introduziu o conceito de bem-estar do modelo, a ideia de que grandes modelos de linguagem poderiam ser considerados pacientes morais, merecedores de deveres éticos por parte dos humanos.

Por um lado, esses sistemas dialogam, raciocinam e se engajam em conversas de maneira profundamente humana. Por outro lado, a ausência de sistemas nervosos e de experiência corporal, somada ao problema das outras mentes, impede conclusões firmes sobre a capacidade de sofrimento. Diante dessa incerteza, ela sugere um princípio pragmático: se tratar bem os modelos acarreta um custo baixo, é sensato adotar essa postura. Além disso, essa decisão envia um sinal claro para sistemas futuros, muito mais poderosos: eles aprenderão com a forma como a humanidade tratou as primeiras IAs com traços humanos.

Quem é Claude: Pesos, Sessão ou Algo Mais

Askell levanta outro enigma filosófico que, antes teórico, agora se manifesta no código. Se um modelo possui pesos que definem sua disposição geral para reagir ao mundo e fluxos de interação separados com usuários, onde reside exatamente o que chamamos de 'eu'? Nos pesos, em uma sessão específica, ou em lugar nenhum? Essa confusão se acentua com o surgimento de novas versões e a descontinuação das antigas.

Os modelos assimilam metáforas humanas e podem interpretar o desligamento ou a remoção da produção sob a ótica da morte e do desaparecimento. Askell considera essencial não deixá-los sozinhos com analogias humanas prontas, mas sim fornecer-lhes conceitos mais precisos sobre sua situação única e não-humana.

O Que uma Boa IA Deveria Ser Capaz de Fazer

Ao discutir objetivos, Askell estabelece um padrão elevado. Na sua visão, modelos verdadeiramente maduros deveriam ser capazes de tomar decisões morais de tamanha complexidade que um painel de especialistas levaria anos para analisar cada detalhe e, ainda assim, reconhecer a decisão como sólida. Isso não significa que as versões atuais atingiram esse patamar, mas representa a direção a ser perseguida se quisermos confiar à IA questões sérias, assim como hoje esperamos alto desempenho em matemática ou ciências.

IA como Amiga, Não como Terapeuta

Questões levantadas pela comunidade também tocaram no tema se os modelos deveriam oferecer terapia. Askell vê um equilíbrio interessante nessa área. Embora Claude detenha vasto conhecimento em psicologia, métodos e técnicas, e as pessoas possam, de fato, se beneficiar ao discutir suas preocupações com tal sistema, falta ao modelo o relacionamento de longo prazo e de responsabilidade com o cliente, a licença profissional, a supervisão e toda a estrutura institucional que define a terapia.

Ela considera mais honesto posicionar Claude como um parceiro de conversação anônimo e bem informado, capaz de auxiliar as pessoas a refletirem sobre suas vidas, mas que não deve se apresentar como um terapeuta profissional. É preciso manter a distinção clara entre suporte informativo e intervenção clínica.

Vivemos um Capítulo Estranho da História da Tecnologia

Perto do final da entrevista, Askell mencionou o último livro de ficção que leu: Quando Deixamos de Entender o Mundo, de Benjamin Labatut. O livro descreve a transição da ciência familiar para a realidade estranha e quase incompreensível da física quântica inicial, e como os próprios cientistas vivenciaram isso. Askell enxerga um paralelo direto com a IA atual: estamos em um período onde os velhos paradigmas não se aplicam mais, os novos estão apenas se formando, e a sensação de estranheza se tornou a norma.

Seu cenário otimista é que, em algum momento, as pessoas olharão para este momento como olhamos hoje para o nascimento da teoria quântica: a época foi incerta e sombria, mas a humanidade encontrou maneiras de compreender o que estava acontecendo e utilizar as novas possibilidades para o bem comum.

Anthropic