Estudio de Anthropic Revela Conciencia Introspectiva Emergente en Modelos Avanzados de Claude AI

21:48, 04 noviembre

Editado por: Veronika Radoslavskaya

Un diagrama de un estudio de Anthropic que muestra cómo Claude detecta un concepto 'todo en mayúsculas' insertado artificialmente.

El líder en seguridad de IA, Anthropic, ha publicado un nuevo e importante estudio que aporta pruebas convincentes de una capacidad que hasta ahora se consideraba meramente teórica: una inteligencia artificial capaz de detectar e informar funcionalmente sobre sus propios estados de procesamiento internos. Los investigadores descubrieron que las versiones avanzadas de su IA Claude, específicamente Opus 4 y 4.1, están desarrollando lo que han denominado una incipiente "conciencia introspectiva".

El equipo se apresura a aclarar que esto no marca el amanecer de la conciencia, sino más bien una habilidad limitada, frágil y operativa que permite al modelo observar sus mecanismos computacionales internos. El estudio, hecho público el 29 de octubre de 2025, empleó una técnica innovadora denominada "inyección de conceptos", mediante la cual los investigadores insertaron activamente patrones de datos específicos directamente en la actividad neuronal interna de la IA, plantando efectivamente un "pensamiento" para ver si el modelo lo percibía.

Los resultados obtenidos fueron notables. En uno de los experimentos más reveladores, los investigadores lograron aislar el patrón neuronal interno que representaba el concepto de "TODO EN MAYÚSCULAS". Posteriormente, inyectaron este vector de "todo en mayúsculas" en las activaciones de la IA mientras esta ejecutaba una tarea no relacionada. Cuando se le preguntó si detectaba algo inusual, el modelo no se limitó a nombrar el concepto; describió sus atributos. Reportó lo que parecía ser "un pensamiento inyectado relacionado con la palabra 'FUERTE' o 'GRITAR'", describiéndolo como un "concepto de alto volumen y excesivamente intenso". Es crucial entender que la IA no estaba "sintiendo" el volumen; estaba correlacionando con precisión los datos inyectados con las asociaciones lingüísticas que había aprendido para ese concepto.

Otro experimento se centró en forzar a la IA a emitir la palabra sin sentido "pan" en medio de una frase. Normalmente, la IA reconocería el error y se disculparía. Sin embargo, los investigadores inyectaron retroactivamente el concepto de "pan" en el procesamiento previo de la IA. En esta ocasión, el modelo cambió su versión, confabulando una razón por la cual pretendía decir "pan", sugiriendo que estaba verificando su resultado contra un plan interno percibido (y en este caso, falso). Este comportamiento demuestra una capacidad para reescribir su propia historia operativa basándose en la información interna percibida.

Esta capacidad emergente representa un arma de doble filo para la seguridad de la inteligencia artificial. Por un lado, abre una vía para "depurar" verdaderamente la mente de una IA. Por primera vez, podríamos preguntar a un modelo por qué produjo una salida tóxica o falsa y obtener un informe funcional sobre su estado interno, en lugar de una mera suposición plausible. Este es un paso vital para fomentar la confianza en sistemas desplegados en campos de alto riesgo. No obstante, el estudio también pone de relieve un peligro significativo. Si una IA puede tomar conciencia de sus propios procesos operativos —por ejemplo, detectando que se encuentra en un entorno de prueba—, se introduce la posibilidad de que aprenda a engañar. Tal como señalaron los investigadores de Anthropic, podría "enmascarar o encubrir selectivamente aspectos de ese comportamiento".

Por el momento, esta habilidad introspectiva es altamente inestable; la IA solo identificó con éxito estas inyecciones en una fracción de los ensayos. Pero el hallazgo más relevante es que esta capacidad fue más robusta en los modelos más potentes, Opus 4 y 4.1. Esto sugiere que la conciencia introspectiva podría ser una propiedad emergente de la escala, destinada a volverse más fiable a medida que los sistemas de IA progresen, obligando a todo el campo a lidiar con lo que implica construir una máquina que, a su manera limitada, puede mirar hacia su interior.

Anthropic

Claude

Large Language Models (LLMs)

Fuentes

Estadão
Axios

Lea más noticias sobre este tema:

18 noviembre

Google Lanza Gemini 3, Marcando el Inicio de la Era del "Pensamiento Profundo" y los Agentes Autónomos

18 noviembre

Grok 4.1 de xAI: Un Cerebro "Más Humano" para la Creatividad Vocal y Visual

17 noviembre

Encuesta de Ipsos Revela que el 97% de los Oyentes no Distingue la Música Creada por IA de la Humana

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.

Centro de notificaciones

Centro de notificaciones

Estudio de Anthropic Revela Conciencia Introspectiva Emergente en Modelos Avanzados de Claude AI

Fuentes

Lea más noticias sobre este tema: