Codex App: el arma gratis de OpenAI contra Claude Code

Qué es OpenAI Codex App y por qué importa

El 2 de febrero de 2026, OpenAI lanzó algo que llevaba meses cocinando internamente: Codex App, una aplicación nativa para macOS que Sam Altman describió como "el producto interno más querido que hemos tenido jamás". No es una extensión para tu editor ni un chatbot que escribe código. Es un centro de mando donde múltiples agentes de IA trabajan en paralelo sobre tu código.

El truco está en entender qué problema resuelve. Hasta ahora, las herramientas de código con IA (Claude Code, Cursor, Copilot) funcionaban con un modelo simple: tú pides, la IA responde. Un agente, una tarea. Codex App rompe ese patrón. Imagina tener un equipo de programadores virtuales, cada uno trabajando en una rama Git aislada, sin pisarse entre ellos. Eso es exactamente lo que ofrece.

Y no es teoría: más de un millón de desarrolladores ya lo usan mensualmente, y el uso se duplicó desde que GPT-5.2-Codex llegó en diciembre de 2025.

GPT-5.2-Codex: el cerebro detrás de la app

Lo que nadie te cuenta es que Codex App no sería nada especial sin el modelo que la alimenta. GPT-5.2-Codex es el motor que marca la diferencia, y sus números son contundentes:

Especificación	Valor
Contexto máximo	400,000 tokens (~100K líneas de código)
Output máximo	128,000 tokens
SWE-Bench Verified	80.0%
HumanEval	89.2%
Terminal-Bench 2.0	64.0% (líder)
Lenguajes soportados	50+

Para ponerlo en perspectiva: 400K tokens de contexto significa que puedes cargar un proyecto entero (frontend, backend, base de datos) y el modelo entiende cómo se conectan las piezas. No necesitas explicarle la arquitectura: la deduce solo.

El sistema de "context compaction" permite que, en tareas largas, el modelo trabaje coherentemente a través de millones de tokens sin perder el hilo. En la práctica, esto significa que puedes pedirle que refactorice un módulo completo y mantendrá la consistencia desde el primer archivo hasta el último.

Rendimiento en benchmarks

En SWE-Bench Verified, el estándar de la industria para medir capacidad de resolución de bugs reales, GPT-5.2-Codex alcanza un 80.0%. ¿Es el mejor? Casi. Claude Opus 4.5 de Anthropic le supera por un margen mínimo con 80.9%. Pero en Terminal-Bench 2.0, que mide tareas de terminal y scripting, GPT-5.2 lidera con un 64.0%.

La conclusión práctica: ambos modelos están técnicamente empatados en el top. La diferencia la marca la experiencia de uso, no el modelo.

Las 4 funciones que definen Codex App

1. Agentes paralelos con worktrees Git

Esta es la función estrella. Puedes lanzar múltiples agentes simultáneamente, cada uno trabajando en un worktree Git aislado. Mientras un agente implementa la autenticación OAuth, otro puede estar optimizando las queries de la base de datos, y un tercero escribiendo tests unitarios.

Cada agente tiene su propia rama. Cuando termina, tú revisas el diff y decides si hacer merge. Sin conflictos, sin pisotones.

En la práctica, esto cambia radicalmente el flujo de trabajo. En lugar de esperar a que un agente termine para darle la siguiente tarea, puedes delegar 5 tareas a la vez y revisar los resultados cuando estén listos.

2. Skills: más allá del código

Los Skills son paquetes que extienden las capacidades de Codex más allá de escribir código. Incluyen instrucciones, recursos y scripts que el agente puede usar automáticamente. OpenAI ya ofrece Skills para:

Recopilación de información (investigar APIs, documentación)
Resolución de problemas (debugging complejo)
Escritura técnica (documentación, READMEs)
Análisis de código (auditorías de seguridad, performance)

Lo interesante es que puedes crear tus propios Skills. Si tu equipo tiene un proceso específico para deploys, empaquetas las instrucciones en un Skill y cualquier agente puede ejecutarlo.

3. Automations: tareas programadas

Quizás la función más infravalorada. Las Automations son tareas que se ejecutan automáticamente según un horario que tú defines. OpenAI las usa internamente para:

Triaje diario de issues: cada mañana, un agente revisa los issues nuevos y los clasifica
Resumen de fallos CI: después de cada merge, analiza qué tests fallaron y por qué
Briefs de releases: genera un resumen diario de los cambios en producción
Búsqueda de bugs: escanea el código buscando patrones problemáticos

Los resultados se colocan en una cola de revisión. Tú decides cuándo revisarlos.

4. Personalidad configurable

El comando /personality permite elegir el estilo de comunicación del agente. ¿Prefieres respuestas concisas y directas? ¿O un estilo más conversacional que explique el razonamiento? Se sincroniza entre la app, el CLI y la extensión del IDE.

Es un detalle pequeño, pero marca la diferencia cuando pasas horas trabajando con el agente.

Codex App vs Claude Code vs Cursor: la comparativa real

Te lo explico con datos, no con opiniones:

Aspecto	Codex App	Claude Code	Cursor
Tipo	App nativa macOS	CLI en terminal	IDE completo
Agentes paralelos	✅ Sí (principal ventaja)	❌ Uno a la vez	❌ Uno a la vez
Modelo	GPT-5.2-Codex	Claude Opus 4.5	Múltiples
Contexto	400K tokens	200K tokens	Variable
SWE-Bench	80.0%	80.9%	N/A
Automaciones	✅ Programadas	❌ No	❌ No
Skills/Plugins	✅ Skills	✅ Plugins + Hooks	✅ Extensions
Plan Mode	❌ No	✅ Sí	❌ No
Rewind	❌ No	✅ Sí	❌ No
Precio mínimo	Gratis (temporal)	~$20/mes	$20/mes
Plataforma	Solo macOS	Mac, Linux, Windows	Mac, Linux, Windows
Ingresos	No revelados	$1B ARR	No revelados

¿Cuál elegir?

Elige Codex App si: necesitas lanzar múltiples tareas en paralelo y trabajas en macOS. La gestión de agentes simultáneos es genuinamente única y no tiene equivalente en la competencia.

Elige Claude Code si: priorizas precisión en tareas complejas individuales, necesitas features maduros como Plan Mode y Rewind, o trabajas en Windows/Linux.

Elige Cursor si: quieres una experiencia integrada de IDE con asistencia de IA incorporada, sin cambiar entre herramientas.

La realidad es que muchos desarrolladores están usando dos o más de estas herramientas simultáneamente. No son mutuamente excluyentes.

Precio y disponibilidad

OpenAI hizo un movimiento agresivo con el pricing:

Plan	Acceso	Precio
ChatGPT Free	✅ Temporal	Gratis
ChatGPT Go	✅ Temporal	Gratis
ChatGPT Plus	✅ + límites dobles	$20/mes
ChatGPT Pro	✅ + límites dobles	$200/mes
Business/Enterprise	✅ + límites dobles	Personalizado

Lo importante: ahora mismo, Codex App es gratis para todos los usuarios de ChatGPT, incluso los gratuitos. OpenAI no ha confirmado cuándo terminará esta promoción, pero la estrategia es clara: capturar desarrolladores antes de que se consoliden en Claude Code (que ya genera $1,000 millones anualizados).

Limitación clave: solo disponible para macOS (Apple Silicon, macOS 14+). La versión de Windows está en desarrollo.

Lo bueno, lo malo y lo que necesita mejorar

Pros

Agentes paralelos reales con aislamiento Git: la función más diferenciadora del mercado
Automaciones programadas que eliminan tareas repetitivas
Gratis temporalmente para todos los usuarios de ChatGPT
90% de resolución al primer intento con GPT-5.2 según OpenAI
Sandbox seguro con permisos granulares e internet desactivado por defecto
Skills extensibles que van más allá de la generación de código

Contras

Solo macOS: si usas Windows o Linux, tendrás que esperar
Electron pesado: consume alrededor de 8 GB de RAM para gestionar chats y diffs
Sin acceso a internet por defecto: no puede instalar paquetes ni resolver dependencias automáticamente
Problemas con refactoring complejo: tiende a querer abrir un PR nuevo por cada iteración
Errores con frameworks frontend: React y componentes complejos siguen siendo un punto débil
Menos features maduros que Claude Code: falta Hooks, Rewind y Plan Mode
Código en la nube: tu código se ejecuta en servidores de OpenAI, lo que genera preocupaciones de privacidad

El veredicto de los desarrolladores

La comunidad está dividida. Los que trabajan en proyectos grandes con múltiples módulos independientes aman los agentes paralelos. Los que necesitan precisión quirúrgica en tareas complejas individuales prefieren Claude Code. Y los que quieren una experiencia integrada sin salir del editor se quedan con Cursor.

Sam Altman confesó que se siente "un poco inútil" después de ver cómo Codex superaba sus propias ideas mientras construía una app. Es una declaración potente, pero hay que tomarla con contexto: es el CEO vendiendo su producto.

Preguntas frecuentes

¿Codex App reemplaza a mi IDE?

No. Codex App es complementario a tu IDE, no un sustituto. Sigue necesitando VS Code, Cursor u otro editor para la edición directa de archivos. Codex App gestiona agentes que trabajan sobre tu repositorio.

¿Mi código es seguro en Codex App?

OpenAI ejecuta cada tarea en un sandbox aislado con internet desactivado por defecto. Los secrets se encriptan y se eliminan antes de la ejecución. Sin embargo, tu código viaja a los servidores de OpenAI, algo que puede ser un problema para empresas con políticas estrictas de seguridad.

¿Cuánto cuesta realmente?

Ahora mismo es gratis para todos los usuarios de ChatGPT (temporal). Cuando la promoción termine, se espera que requiera al menos el plan Plus ($20/mes). Los usuarios Pro ($200/mes) tendrán límites más altos.

¿Funciona en Windows o Linux?

No. Al momento del lanzamiento, Codex App solo está disponible para macOS (Apple Silicon, macOS 14+). OpenAI ha confirmado que la versión de Windows está en desarrollo, pero no hay fecha.

¿Es mejor que Claude Code?

Depende del caso de uso. Para tareas paralelas y automatizaciones, Codex App gana. Para precisión en tareas individuales complejas y features avanzados, Claude Code lleva ventaja. Ambos usan modelos con rendimiento prácticamente idéntico en SWE-Bench.

Conclusión: ¿vale la pena probar Codex App?

La respuesta corta: sí, especialmente ahora que es gratis.

Codex App no es perfecto. Le faltan features que Claude Code ya tiene, consume demasiada RAM, y solo funciona en Mac. Pero la gestión de agentes paralelos es una innovación genuina que cambia la forma de trabajar con código asistido por IA.

Si eres desarrollador y usas macOS, no hay razón para no probarlo mientras sea gratuito. Lo peor que puede pasar es que descubras que prefieres tu herramienta actual. Lo mejor es que encuentres un flujo de trabajo con múltiples agentes que multiplique tu productividad.

La guerra de las herramientas de código con IA apenas empieza. Con Claude Code generando $1,000 millones anualizados y Codex App capturando un millón de usuarios, 2026 será el año que defina quién domina el escritorio del desarrollador.