OpenAI Despliega GPT-5.2: Una Arquitectura de Tres Niveles Optimizada para Flujos de Trabajo Profesionales

20:38, 11 diciembre

Autor: Veronika Radoslavskaya

OpenAI

@OpenAI

·Follow

Replying to @OpenAI

GPT-5.2 Thinking evals

6:18 PM · Dec 11, 2025

3.8K

Read 341 replies

Watch on X

El 11 de diciembre de 2025 marcó el lanzamiento oficial de GPT-5.2 por parte de OpenAI. Esta nueva iteración introduce un sistema de modelo tripartito, meticulosamente diseñado para potenciar el trabajo de conocimiento profesional y las aplicaciones de agentes autónomos. La compañía subraya que esta serie representa su modelo más avanzado hasta la fecha, exhibiendo mejoras cuantificables en áreas cruciales como la generación de hojas de cálculo, la creación de presentaciones, la programación, el procesamiento de visión y el razonamiento con contextos extensos.

Carl Vellotti 🥞

@carlvellotti

·Follow

Replying to @OpenAI

6:44 PM · Dec 11, 2025

Rendimiento y Hitos en Benchmarks

El modelo GPT-5.2 Thinking ha establecido un nuevo estándar al alcanzar una precisión del 100% en el examen de matemáticas de la competición AIME 2025. Este logro es significativo. Además, en la evaluación GDPval, que mide el desempeño en el trabajo de conocimiento a través de 44 ocupaciones distintas, el modelo superó o igualó a profesionales humanos en el 70.9% de las comparaciones directas. Este es el primer hito donde un modelo de OpenAI demuestra un rendimiento a nivel experto en tareas de alto valor económico.

Al revisar las tablas comparativas de OpenAI, GPT-5.2 Thinking supera a Gemini 3 de Google y a Claude Opus 4.5 de Anthropic en casi todas las pruebas de razonamiento listadas. Esto incluye suites de evaluación rigurosas como SWE-Bench Pro, GPQA Diamond y ARC-AGI, consolidando su posición en el panorama actual.

Avances en Ingeniería de Software

En el ámbito de la programación, GPT-5.2 Thinking demostró su valía en SWE-Bench Pro, una prueba de fuego que evalúa la resolución de problemas de ingeniería de software del mundo real en múltiples lenguajes. Obtuvo una puntuación del 55.6%, superando el 50.8% registrado por su predecesor, GPT-5.1. Adicionalmente, consiguió un 80% en la métrica SWE-bench Verified. Empresas emergentes de codificación como Windsurf y CharlieCode ya reportan un rendimiento de agentes de codificación de vanguardia y ganancias tangibles en flujos de trabajo complejos que requieren múltiples pasos.

Fiabilidad y Manejo de Contexto

La fiabilidad es otro pilar de esta actualización. Las respuestas generadas por GPT-5.2 Thinking presentan un 30% menos de errores en comparación con GPT-5.1, lo que lo convierte en una herramienta mucho más robusta para la toma de decisiones diaria, la investigación y la redacción profesional. La capacidad de manejar ventanas de contexto que se extienden a cientos de miles de tokens es notable, mostrando una resolución de correferencia en rondas múltiples casi perfecta.

Las capacidades visuales también han experimentado una mejora sustancial. Las tasas de error se han reducido aproximadamente a la mitad en los puntos de referencia relacionados con la interpretación de gráficos y la comprensión de interfaces de software, un avance que no es moco de pavo.

Contexto Estratégico del Lanzamiento

Este lanzamiento se produce en un momento de competencia feroz, especialmente con Gemini 3 de Google, que actualmente lidera la clasificación de LMArena en la mayoría de los parámetros, a excepción de la codificación. Cabe recordar que a principios de este mes, el CEO Sam Altman supuestamente envió un memorando interno de “alerta roja” al personal, motivado por la disminución del tráfico de ChatGPT y la preocupación por ceder cuota de mercado al gigante de Mountain View. Dicho memorando instaba a reorientar prioridades, incluyendo la postergación de planes como la introducción de publicidad para centrarse en la creación de una experiencia de usuario superior en ChatGPT.

En cuanto a la disponibilidad, GPT-5.2 está siendo implementado gradualmente para los suscriptores de pago de ChatGPT (incluyendo los niveles Plus, Pro, Business y Enterprise). Asimismo, las tres variantes están accesibles de inmediato a través de la interfaz de programación de aplicaciones (API). OpenAI también aprovechó la ocasión para anunciar nuevas salvaguardas relativas al uso en salud mental y la verificación de edad para adolescentes, aunque estos aspectos no recibieron gran énfasis durante la presentación formal.

OpenAI

ChatGPT

Reasoning AI

Large Language Models (LLMs)

Generative AI

38 Vues

Fuentes

OpenAI Blog

Lea más artículos sobre este tema:

27 abril

DeepSeek-V4: Cómo los recortes de precios en China desafían la exclusividad de la IA

23 abril

Las emisiones invisibles de las máquinas inteligentes: hacia la transparencia en los costes ambientales de los LLM

09 abril

Grammarly enfrenta una demanda por violación del derecho a la propia imagen debido a su editor de estilos con IA

¿Encontró un error o inexactitud?Consideraremos sus comentarios lo antes posible.