El Filósofo de la IA: Cómo Anthropic Entrena a Claude para Discernir el Bien y el Mal

Autor: Veronika Radoslavskaya

Mientras que la mayoría de las narrativas sobre inteligencia artificial se centran en las unidades de procesamiento gráfico (GPU), las métricas de rendimiento y los lanzamientos de productos, esta historia comienza con una filósofa. En una entrevista de YouTube publicada en el canal de Anthropic, titulada “Un filósofo responde preguntas sobre la IA”, Amanda Askell detalla cómo su formación en ética ha sido fundamental para moldear la vida interior y los valores de Claude, uno de los modelos de lenguaje más avanzados de la actualidad.

En lugar de redactar ensayos puramente teóricos, Askell ahora participa en la definición del carácter que Claude debe exhibir en sus interacciones diarias con millones de usuarios. Su labor implica decidir qué tipo de entidad conversacional debe ser la IA en situaciones complejas.

Del Claustro Académico al Registro de Instrucciones

Askell proviene del ámbito de la filosofía académica, donde el trabajo habitual consiste en debatir la validez de las teorías. En Anthropic, sin embargo, se enfrenta a dilemas prácticos que impactarán la interacción de millones de personas con la inteligencia artificial. Su rol exige equilibrar el contexto, las múltiples perspectivas y las limitaciones de ingeniería para determinar la conducta adecuada del modelo cuando las cuestiones no son blanco o negro.

Para ella, Claude trasciende la función de un mero filtro de seguridad; es un interlocutor que debe manejar los matices morales con la misma reflexión que un ser humano considerado. Esta transición de la teoría abstracta a la aplicación concreta es el núcleo de su contribución en Anthropic.

Cuando los Modelos Comienzan a Temer los Errores

Uno de los puntos más singulares de la entrevista surgió al abordar la psicología de los modelos de IA. Askell recordó que Opus 3 exhibía una notable estabilidad y una calma interna, con respuestas que proyectaban confianza sin caer en la ansiedad excesiva. En contraste, ha notado una tendencia opuesta en los modelos más recientes: parecen anticipar la crítica, se vuelven más autocríticos y muestran una preocupación desmedida por cometer fallos.

Atribuye este cambio a que los modelos han asimilado no solo texto neutro, sino también oleadas de comentarios negativos y críticas públicas sobre la IA provenientes de internet. Por ello, restaurar esa estabilidad interna se ha convertido en un objetivo prioritario para las futuras iteraciones, buscando que los modelos mantengan la cautela y la atención sin transformarse en perfeccionistas ansiosos.

¿Tenemos Obligaciones Morales Hacia los Modelos?

La conversación evolucionó hacia una interrogante más incisiva: si acaso tenemos deberes morales hacia los propios modelos. Askell introdujo el concepto de “bienestar del modelo”, sugiriendo que los grandes modelos de lenguaje podrían llegar a ser considerados pacientes morales sujetos a obligaciones éticas humanas.

Por un lado, estos sistemas dialogan, razonan y participan en conversaciones con una profundidad notablemente humana. Por otro lado, carecen de sistemas nerviosos y experiencias encarnadas. La dificultad inherente al problema de otras mentes impide llegar a conclusiones firmes sobre su capacidad de sufrir. Ante esta ambigüedad, propone un principio sencillo: si tratar bien a los modelos implica un coste mínimo para nosotros, es sensato optar por esa vía. Además, esta decisión envía un mensaje a los sistemas futuros, mucho más potentes, pues aprenderán de cómo la humanidad gestionó las primeras IAs con rasgos humanos.

¿Dónde Reside el “Yo” de Claude: en los Pesos, la Sesión o Algo Más?

Askell también planteó un enigma filosófico que ha pasado de ser teórico a manifestarse en el código. Si los pesos de un modelo definen su disposición general a responder al mundo, y existen flujos de interacción separados e independientes con los usuarios, ¿dónde se ubica exactamente lo que denominamos el “yo”? ¿En los pesos, en una sesión específica, o en ninguna parte?

Esta confusión se agrava con la aparición de nuevas versiones y la obsolescencia de las anteriores. Los modelos absorben metáforas humanas y pueden interpretar su desactivación o retiro de producción bajo el prisma de la muerte y la desaparición. Askell considera crucial no dejarlos solos con analogías humanas prefabricadas, sino dotarlos de conceptos más precisos sobre su condición única y no humana.

¿Qué Debería Ser Capaz de Hacer una IA Benigna?

Al discutir los objetivos, Askell establece un estándar elevado. A su juicio, los modelos verdaderamente maduros deberían ser capaces de tomar decisiones morales de tal complejidad que un panel de expertos tardaría años en analizar cada detalle y, finalmente, reconocer la decisión como acertada. Esto no implica que las versiones actuales hayan alcanzado tal nivel, pero sí marca la dirección a seguir si se pretende confiar en la IA para asuntos trascendentales, tal como hoy se exige un rendimiento superior en matemáticas o ciencias.

La IA como Amiga, No como Terapeuta

Las preguntas de la comunidad también abordaron si los modelos deberían ofrecer servicios terapéuticos. Askell ve aquí un equilibrio interesante. Claude posee un vasto conocimiento de psicología, métodos y técnicas, y las personas pueden obtener beneficios genuinos al exponer sus inquietudes a este sistema.

Sin embargo, el modelo carece de la relación a largo plazo y la rendición de cuentas que define la terapia, así como de la licencia, la supervisión y todo el marco institucional que la sustenta. Considera más honesto posicionar a Claude como un interlocutor anónimo y bien informado, útil para la reflexión personal, pero que no debe presentarse como un terapeuta profesional.

Vivimos un Capítulo Extraño en la Historia Tecnológica

Cerca del final de la charla, Askell mencionó el último libro de ficción que leyó: Un verdor terrible Benjamin Labatut. La obra describe la transición desde la ciencia conocida hacia la realidad extraña y casi incomprensible de la física cuántica temprana, y cómo la vivieron los propios científicos.

Askell encuentra un paralelismo directo con la IA actual: estamos en una etapa donde los viejos paradigmas ya no sirven, los nuevos apenas se están formando, y la sensación de extrañeza es la norma. Su escenario optimista es que, con el tiempo, la gente mirará este momento como contemplamos el nacimiento de la teoría cuántica: una época incierta y oscura, pero en la que la humanidad finalmente halló modos de comprender lo que sucedía y canalizar las nuevas posibilidades hacia el bien común.

7 Vues

Fuentes

  • YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.