El número que cambió todo: 90.5%
Te lo explico fácil: imagina que existiera un examen diseñado específicamente para medir si una IA puede "pensar" de verdad, no solo memorizar patrones. Un test tan difícil que durante años ningún modelo logró superar el 50%. Pues bien, GPT-5.2 Pro acaba de obtener un 90.5%.
Este no es un benchmark cualquiera. ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) fue creado por François Chollet, el inventor de Keras, precisamente para detectar si las IAs realmente razonan o solo fingen hacerlo. Y durante años, ese test expuso las limitaciones de todos los modelos.
Hasta diciembre de 2025.
Lo que nadie te cuenta es que este resultado no solo es impresionante por el número en sí. Es impresionante porque GPT-5.2 Pro lo consigue siendo 390 veces más barato que el anterior récord de o3-preview, que apenas llegaba al 87%.
¿Qué diablos es ARC-AGI y por qué debería importarte?
Antes de emocionarnos con los números, déjame explicarte por qué este benchmark es especial.
El problema con los benchmarks tradicionales
La mayoría de tests de IA miden cosas que los modelos pueden aprender de memoria. Si un modelo ha visto millones de problemas matemáticos durante su entrenamiento, ¿realmente está "razonando" cuando resuelve uno nuevo, o solo está aplicando patrones que ya conoce?
François Chollet diseñó ARC-AGI para ser diferente:
| Característica | Benchmarks tradicionales | ARC-AGI |
|---|---|---|
| Tipo de problemas | Texto, código, matemáticas | Puzzles visuales abstractos |
| Memorización | Posible | Imposible |
| Entrenamiento específico | Funciona | No funciona |
| Mide | Conocimiento + patrones | Razonamiento puro |
Cada problema de ARC-AGI presenta una cuadrícula con patrones de colores. El modelo debe descubrir la regla subyacente mirando solo 2-3 ejemplos y luego aplicarla a un caso nuevo. No hay forma de memorizarlo porque cada problema es único.
El truco está en que un humano promedio puede resolver el 85% de estos puzzles sin entrenamiento previo. Durante años, las mejores IAs apenas llegaban al 30-40%.
La evolución de las puntuaciones
| Año | Mejor modelo | Puntuación ARC-AGI-1 |
|---|---|---|
| 2020 | GPT-3 | ~20% |
| 2022 | GPT-4 | ~35% |
| 2024 | Claude Opus | ~55% |
| Nov 2025 | o3-preview | 87% |
| Dic 2025 | GPT-5.2 Pro | 90.5% |
Los números que importan: GPT-5.2 al detalle
OpenAI lanzó GPT-5.2 el 11 de diciembre de 2025. Pero no es un solo modelo, sino una familia con tres variantes pensadas para diferentes casos de uso.
Las tres variantes de GPT-5.2
| Variante | Para qué sirve | Precio API (input/output) |
|---|---|---|
| GPT-5.2 Instant | Respuestas rápidas, emails, textos simples | El más económico |
| GPT-5.2 Thinking | Razonamiento paso a paso, problemas complejos | $1.75 / $14 por millón tokens |
| GPT-5.2 Pro | Investigación, análisis legal, trabajo científico | $21 / $168 por millón tokens |
Especificaciones técnicas
| Especificación | Valor |
|---|---|
| Ventana de contexto | 400,000 tokens |
| Tokens de salida máximos | 128,000 tokens |
| Fecha de conocimiento | Agosto 2025 |
| Soporte de razonamiento | Configurable (none, low, medium, high, xhigh) |
| Caché de inputs | 90% de descuento |
| API Batch | 50% de descuento |
Imaginá que la ventana de contexto de 400K tokens significa que puedes meter aproximadamente 600 páginas de texto en una sola consulta. Eso es un libro entero, con espacio de sobra para preguntas.
La batalla de los benchmarks: GPT-5.2 vs Claude Opus 4.5 vs Gemini 3
Ahora viene lo interesante. ¿Cómo se compara GPT-5.2 con sus competidores directos?
Razonamiento y matemáticas
| Benchmark | GPT-5.2 Pro | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 90.5% | ~75% | ~70% |
| ARC-AGI-2 (Verified) | 54.2% | 37.6% | 31.1% |
| AIME 2025 (Matemáticas) | 100% | ~92.8% | ~90% |
| GPQA Diamond (Ciencia) | 92.4% | 87% | 91.9% |
| FrontierMath | 40.3% | ~30% | ~35% |
Los números son claros: en razonamiento abstracto y matemáticas, GPT-5.2 domina. El salto de 37.6% a 54.2% en ARC-AGI-2 (la versión más difícil) es especialmente notable: un 44% de mejora sobre Claude Opus 4.5.
Coding y tareas de programación
| Benchmark | GPT-5.2 Codex | Claude Opus 4.5 |
|---|---|---|
| SWE-bench Verified | 80.0% | 80.9% |
| SWE-bench Pro | 56.4% | ~54% |
| HumanEval | 91.7% | 94.2% |
| Terminal-Bench | 47.6% | 59.3% |
| Terminal-Bench 2.0 | 64.0% | ~55% |
El truco está en entender qué mide cada cosa: Claude Opus 4.5 sigue liderando en SWE-bench Verified (la métrica más citada para coding real), pero GPT-5.2 Codex gana en SWE-bench Pro y Terminal-Bench 2.0, que son más difíciles.
Lo que nadie te cuenta es que en tests prácticos del mundo real, los resultados son más mixtos. Un análisis de Sonar encontró que GPT-5.2 tiene el menor índice de errores de flujo de control (22 errores por millón de líneas de código), pero Claude Opus 4.5 tiene el mayor índice de código funcional (83.62%).
El benchmark que más importa: GDPval
OpenAI creó GDPval para medir algo que realmente importa: ¿puede la IA hacer trabajo profesional mejor que un humano experto?
| Modelo | GDPval (vs profesionales) |
|---|---|
| GPT-5.2 Thinking | 70.9% |
| GPT-5.2 Pro | 74.1% |
| Claude Opus 4.5 | ~65% |
Esto significa que en tareas de conocimiento bien especificadas, GPT-5.2 Pro supera a profesionales humanos el 74% de las veces. Tareas como análisis legal, revisión de documentos, investigación científica.
Lo que Sam Altman admitió (y por qué importa)
Aquí viene algo que OpenAI preferiría que no se hablara tanto: GPT-5.2 tiene problemas con la escritura.
En una sesión de preguntas reciente, Sam Altman lo admitió directamente:
"Decidimos poner la mayor parte de nuestro esfuerzo en 5.2 en hacerlo súper bueno en inteligencia, razonamiento, coding, ingeniería. Y creo que la fastidiamos un poco en la calidad de escritura."
Lo que nadie te cuenta es que esto fue una decisión deliberada, no un error. OpenAI priorizó las capacidades técnicas porque, según Altman, "los consumidores ya no demandan más IQ, pero las empresas sí".
La promesa es que futuras versiones de GPT-5.x corregirán este déficit. Pero si tu trabajo principal es escribir textos creativos, Claude Opus 4.5 sigue siendo la mejor opción.
GPT-5.2 Codex: el arma para desarrolladores
Una semana después de GPT-5.2 base, OpenAI lanzó GPT-5.2 Codex, optimizado específicamente para coding agéntico.
Qué hace diferente a Codex
| Característica | GPT-5.2 estándar | GPT-5.2 Codex |
|---|---|---|
| Contexto largo en repos | Bueno | Optimizado |
| Refactors grandes | Limitado | Excelente |
| Migraciones de código | Básico | Especializado |
| Ciberseguridad | Estándar | Reforzado |
| Compactación de contexto | No | Sí |
El truco está en la "compactación de contexto nativo". Codex puede mantener el estado de una tarea a través de sesiones extendidas sin perder el hilo. Imagina que puedes dejar un refactor a medias, volver al día siguiente, y el modelo recuerda exactamente dónde estaba.
Rendimiento en ciberseguridad
OpenAI presume de que GPT-5.2 Codex tiene las mejores capacidades de ciberseguridad de cualquier modelo que han lanzado. En competiciones profesionales de CTF (Capture The Flag), el modelo muestra mejoras significativas en:
- Detección de vulnerabilidades
- Análisis de amenazas
- Investigación de exploits del mundo real
Andrew MacPherson, ingeniero de seguridad en Privy (una empresa de Stripe), usó GPT-5.2 Codex para reproducir y estudiar una vulnerabilidad crítica de React. Su conclusión: el modelo es genuinamente útil para investigación de seguridad real.
La estrategia empresarial de OpenAI: lo que revelan estos lanzamientos
Los números de GPT-5.2 no son solo métricas técnicas. Son una declaración de intenciones.
El pivot hacia enterprise
Sam Altman ha sido claro: 2026 es el año enterprise para OpenAI. Algunos datos reveladores:
- La API de OpenAI creció más rápido que ChatGPT consumer en 2025
- Enterprise es ahora una "prioridad principal"
- GPT-5.2 Pro existe específicamente para equipos legales, de investigación y análisis
"Lo principal que los consumidores quieren ahora no es más IQ. Las empresas todavía sí quieren más IQ."
La respuesta al "código rojo"
Lo que nadie te cuenta es que GPT-5.2 llegó después de que un memo interno de OpenAI declarara "código rojo" ante el avance de competidores como Google Gemini. Altman confirmó que esperaba "salir de código rojo" tras el lanzamiento de GPT-5.2.
La guerra de modelos está en su punto más intenso.
¿Qué significa el 90% en ARC-AGI?
Ahora la pregunta importante: ¿superar el 90% significa que hemos alcanzado AGI (Inteligencia Artificial General)?
Lo que SÍ significa
- Razonamiento genuino (hasta cierto punto): GPT-5.2 puede resolver problemas que no ha visto antes aplicando reglas abstractas
- Generalización mejorada: El modelo no solo memoriza, sino que extrae principios
- Eficiencia radical: Logra resultados similares a o3 a 1/390 del costo
Lo que NO significa
- No es AGI: ARC-AGI mide un aspecto del razonamiento, no todos
- No es consciencia: Resolver puzzles no implica entender el mundo
- No es perfecto: En ARC-AGI-2 (la versión más difícil), el mejor resultado es 54.2%
François Chollet, el creador de ARC-AGI, lanzó ARC-AGI-2 precisamente porque los modelos estaban empezando a "saturar" el benchmark original. La carrera continúa.
Comparativa de precios: ¿vale la pena?
Si estás considerando usar GPT-5.2 para tu trabajo o negocio, aquí tienes los números reales.
Costos de API por millón de tokens
| Modelo | Input | Output | Input (caché) | Batch |
|---|---|---|---|---|
| GPT-5.2 Thinking | $1.75 | $14.00 | $0.175 | $0.875/$7 |
| GPT-5.2 Pro | $21.00 | $168.00 | N/A | N/A |
| Claude Opus 4.5 | $15.00 | $75.00 | $1.50 | $7.50/$37.50 |
| Gemini 3 Pro | ~$7.00 | ~$21.00 | Variable | Variable |
Análisis costo-beneficio
Para coding y desarrollo:
- GPT-5.2 Thinking es competitivo con Claude Opus
- El caché del 90% hace que consultas repetidas sean muy baratas
- GPT-5.2 Codex justifica el premium si haces refactors grandes
Para razonamiento y análisis:
- GPT-5.2 Pro es caro (~$168/millón output) pero el mejor para trabajo profesional
- Si necesitas superar a expertos humanos el 74% de las veces, puede valer la pena
Para escritura creativa:
- Honestamente, Claude sigue siendo mejor opción
- GPT-5.2 admitió haber sacrificado calidad de escritura
Qué viene después: el roadmap de OpenAI
Sam Altman dejó caer algunas pistas sobre el futuro:
Q1 2026
"Espero nuevos modelos que sean mejoras significativas respecto a 5.2 en el primer trimestre del próximo año."
Nota que evitó llamarlo "GPT-6". Pero el timeline es claro: mejoras sustanciales en los próximos meses.
Lo que vendrá
- Mejoras en escritura: OpenAI sabe que cometió un error, lo corregirán
- Modelos más especializados: Siguiendo la línea de Codex
- Eficiencia: El salto de 390x en costo/rendimiento sugiere que hay más espacio para optimizar
Conclusión: el significado real de este hito
GPT-5.2 superando el 90% en ARC-AGI es un hito genuino, no marketing vacío. Pero hay que entenderlo en contexto:
Es impresionante porque:
- Demuestra razonamiento abstracto real, no solo memorización
- Reduce el costo de capacidades avanzadas en 390x
- Establece un nuevo estándar para la industria
No cambia todo porque:
- El benchmark más difícil (ARC-AGI-2) sigue en ~54%
- La escritura ha empeorado respecto a modelos anteriores
- Claude Opus 4.5 sigue liderando en coding práctico
Si me preguntas directamente: GPT-5.2 es el mejor modelo para razonamiento, matemáticas y análisis profesional. Claude Opus 4.5 sigue siendo mejor para coding del día a día y escritura. Gemini 3 ocupa un nicho interesante con su integración en el ecosistema Google.
La verdadera pregunta no es si GPT-5.2 es "el mejor". Es para qué lo necesitas. Y ahora, con estos números sobre la mesa, puedes elegir informado.
Datos actualizados a enero 2026. Benchmarks de OpenAI, evaluaciones independientes de IntuitionLabs, SonarSource y análisis comparativos de LLM-Stats.
Preguntas frecuentes
¿Qué es ARC-AGI y por qué es importante?
ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) es un benchmark diseñado por François Chollet para medir razonamiento abstracto genuino. A diferencia de otros tests, no puede resolverse memorizando patrones: cada problema es único y requiere descubrir reglas subyacentes. Un humano promedio resuelve el 85% sin entrenamiento; durante años, las IAs no superaban el 40%.
¿GPT-5.2 es mejor que Claude Opus 4.5?
Depende de la tarea. GPT-5.2 domina en razonamiento abstracto (90.5% vs ~75% en ARC-AGI) y matemáticas (100% vs ~93% en AIME 2025). Claude Opus 4.5 lidera en coding práctico (80.9% vs 80.0% en SWE-bench Verified) y calidad de escritura. Para análisis profesional: GPT-5.2. Para desarrollo de software: ambos son competitivos.
¿Cuánto cuesta usar GPT-5.2?
GPT-5.2 Thinking cuesta $1.75 por millón de tokens de entrada y $14 por millón de salida. GPT-5.2 Pro (el más capaz) cuesta $21 entrada y $168 salida. Los inputs en caché tienen 90% de descuento, y el API Batch ofrece 50% de descuento para cargas no urgentes.
¿Significa esto que hemos alcanzado AGI?
No. ARC-AGI mide un aspecto del razonamiento abstracto, no inteligencia general. Superar el 90% en ARC-AGI-1 es impresionante, pero en ARC-AGI-2 (la versión más difícil) el mejor resultado es 54.2%. Los modelos actuales siguen teniendo limitaciones importantes en sentido común, razonamiento causal y comprensión del mundo físico.
¿Cuándo saldrá GPT-6?
Sam Altman dijo que esperan "nuevos modelos que sean mejoras significativas respecto a 5.2 en el primer trimestre de 2026", pero evitó confirmar si se llamará GPT-6. OpenAI también mencionó que futuras versiones de GPT-5.x mejorarán la calidad de escritura, que admitieron haber sacrificado en GPT-5.2.




