¿El estudio METR demuestra que la IA para programar no sirve?

No exactamente. El estudio demuestra que desarrolladores expertos en sus propios repositorios son más lentos con IA. Pero la IA puede ser útil en otros contextos: codebases desconocidos, tareas de boilerplate, prototipos rápidos y documentación.

¿Cuántos desarrolladores participaron en el estudio METR?

El estudio incluyó 16 desarrolladores experimentados que completaron 246 tareas reales en sus propios repositorios de código abierto. Todos tenían al menos 5 años de experiencia en sus proyectos.

¿Qué herramientas de IA se probaron en el estudio?

Los desarrolladores usaron principalmente Cursor Pro con Claude 3.5 y 3.7 Sonnet. Cursor es una de las herramientas de coding AI más populares y mejor valoradas del mercado.

¿Por qué los desarrolladores creen ser más rápidos cuando no lo son?

El estudio sugiere que programar con IA requiere menos esfuerzo cognitivo, lo que se siente como mayor productividad. Los desarrolladores disfrutan la interacción con la IA aunque les tome más tiempo completar las tareas.

¿Debería dejar de usar Cursor o Claude Code?

No necesariamente. El estudio sugiere que la IA funciona mejor para ciertas tareas (boilerplate, prototipos, documentación) y peor para otras (código en repositorios maduros donde ya eres experto). La clave es medir tu productividad real, no tu percepción.

La IA ralentiza un 19% a los programadores, según estudio METR

Te lo explico fácil: imagina que te dicen que una herramienta mágica te hará 55% más productivo. La instalas, la usas durante meses, y juras que te está ayudando. Pero cuando alguien mide tu rendimiento real con un cronómetro, resulta que eres 19% más lento que antes de usarla.

Eso es exactamente lo que descubrió el estudio de METR publicado en julio de 2025, y los datos son tan incómodos para Silicon Valley que casi nadie quiere hablar de ellos.

El estudio que nadie quería ver

METR (Model Evaluation and Threat Research) es una organización sin fines de lucro de seguridad en IA con sede en Berkeley, California. Fue fundada por Beth Barnes, ex-investigadora de alineación de OpenAI. No tienen acciones en Cursor ni en Anthropic. No venden herramientas de coding. Solo querían medir la verdad.

Y la verdad es incómoda.

Los números que no mienten

El estudio reunió a 16 desarrolladores expertos con una característica especial: todos trabajaban en sus propios repositorios. No eran tareas de laboratorio inventadas. Eran bugs reales, features reales, refactorizaciones reales en proyectos que ellos mismos mantenían.

Métrica	Valor
Desarrolladores participantes	16
Tareas completadas	246
Experiencia media en los repos	5 años
Tamaño promedio de repositorios	1+ millón de líneas de código
Stars promedio en GitHub	22,000+
Herramientas AI usadas	Cursor Pro + Claude 3.5/3.7 Sonnet

Cada tarea fue asignada aleatoriamente: unas se completaban con IA, otras sin ella. Los desarrolladores grabaron sus pantallas y reportaron sus tiempos. Un ensayo controlado aleatorizado (RCT) de manual.

La paradoja del 40%: creer vs. realidad

Aquí viene lo que nadie te cuenta: los desarrolladores no solo fueron más lentos, sino que estaban convencidos de ser más rápidos.

Antes de empezar: predijeron que serían 24% más rápidos con IA
Después de terminar: creyeron haber sido 20% más rápidos
Resultado real medido: fueron 19% MÁS LENTOS

La brecha entre percepción y realidad es de casi 40 puntos porcentuales. Es como si creyeras que corriste un maratón en 3 horas cuando en realidad tardaste 4 horas y media.

¿Por qué creemos que la IA nos ayuda cuando no lo hace?

Un participante lo explicó perfectamente:

"Pensé que la IA me estaba acelerando. Pero no nos enfocamos en todo el tiempo que realmente gastamos—solo en lo agradable que fue ir y venir con la IA."

El truco está en que programar con IA se siente más fácil, aunque no sea más rápido. Requiere menos esfuerzo cognitivo. Es como cuando prefieres ir en coche aunque tardes más que en metro: el viaje se siente menos pesado.

De hecho, el 69% de los participantes siguió usando Cursor después del estudio, a pesar de saber que les ralentizaba.

¿Por qué la IA ralentiza a los expertos?

Los investigadores identificaron cinco factores principales:

1. Sobre-optimismo

Todos hemos visto los demos donde la IA escribe una app completa en minutos. El problema es que esos demos son con proyectos nuevos y pequeños, no con codebases de un millón de líneas con años de decisiones arquitectónicas implícitas.

2. Los desarrolladores sabían demasiado

Cuando llevas 5 años trabajando en un repositorio, conoces cada rincón. Sabes por qué ese if está ahí, por qué esa función tiene ese nombre raro, qué dependencias no debes tocar. La IA no sabe nada de esto.

Un desarrollador lo comparó con "un contribuidor nuevo que aún no entiende el codebase". Imagina tener que explicarle todo el contexto a un junior para cada tarea. A veces es más rápido hacerlo tú mismo.

3. Repositorios demasiado grandes y complejos

Las herramientas de IA brillan con proyectos pequeños y bien documentados. Pero cuando tienes más de un millón de líneas de código, la IA simplemente no puede procesar todo el contexto necesario.

4. Baja tasa de aceptación

Los desarrolladores aceptaron menos del 44% de las sugerencias de IA. Eso significa que más de la mitad del código generado fue rechazado o requerido limpieza.

5. El tiempo oculto

Mira cómo se distribuyó el tiempo cuando usaban IA:

9% revisando y limpiando outputs de la IA
4% esperando que la IA generara respuestas
Menos tiempo programando activamente
Menos tiempo buscando información

Ese 13% de tiempo "perdido" en interacción con la IA se acumula tarea tras tarea.

La excepción que confirma la regla

Hubo un único desarrollador que sí fue más rápido con IA: aproximadamente 20% más productivo. ¿La diferencia? Tenía más de 50 horas de experiencia intensiva con Cursor.

Esto sugiere algo importante: la curva de aprendizaje de estas herramientas podría requerir cientos de horas antes de ver beneficios reales. Y la mayoría de estudios (incluidos los de las propias empresas) no miden esto.

El elefante en la habitación: las promesas de la industria

Ahora comparemos estos resultados con lo que nos venden las empresas:

Fuente	Afirmación	Contexto
GitHub/Microsoft (2023)	55% más rápido	Tarea simple (servidor HTTP), más beneficio para juniors
Google DORA (2025)	Mayor throughput	Pero preocupaciones de estabilidad
METR (2025)	19% más lento	Expertos, repos maduros, tareas reales

El estudio de GitHub que todos citan ("55% más rápido") tenía un problema: los desarrolladores completaban una tarea simple y artificial. Es como medir la velocidad de un coche nuevo solo en una pista de carreras vacía.

Otros estudios independientes tampoco son optimistas

Uplevel Data Labs midió a 800 desarrolladores con métricas objetivas y encontró sin ganancia de productividad y 41% más bugs. Bain reportó que los ahorros de tiempo en adopción empresarial real fueron "no notables".

Las reacciones: desde la negación hasta el reconocimiento

Los críticos del estudio

Emmett Shear, ex-CEO interino de OpenAI y fundador de Twitch, fue directo:

"El análisis de METR es tremendamente engañoso. Los resultados indican que personas que esencialmente NUNCA han usado herramientas AI son menos productivas mientras aprenden a usarlas, y no dicen nada sobre usuarios experimentados de AI."

Shear tiene un punto válido: solo 1 de 16 desarrolladores tenía más de una semana de experiencia con Cursor específicamente. Pero eso también revela algo: la mayoría de empresas adoptan estas herramientas sin dar tiempo de aprendizaje adecuado.

La comunidad de desarrolladores

En Hacker News y Reddit, las reacciones fueron mixtas. Un backend developer resumió la frustración de muchos:

"Odio arreglar código escrito por IA. Resuelve la tarea, sí. Pero no tiene visión. El código AI carece de sentido de arquitectura, intención o cuidado."

Los datos de Stack Overflow confirman el escepticismo

La encuesta de Stack Overflow 2025 mostró:

Confianza en IA cayó de 43% a 33%
Sentimiento positivo cayó de 70% a 60%
Pero la adopción subió a 84%

En otras palabras: cada vez más gente usa IA para programar, pero cada vez menos gente confía en ella. Una paradoja interesante.

¿Qué significa esto para ti?

Si eres programador, no te estoy diciendo que desinstales Cursor o Claude Code. Pero sí que midas tu productividad real, no tu sensación.

Dónde la IA sí ayuda

MVPs y prototipos: Cuando la calidad del código importa menos que la velocidad
Boilerplate: Código repetitivo que cualquiera podría escribir
Tests unitarios: Generar casos de prueba básicos
Documentación: Explicar código existente
Codebases desconocidos: Cuando tú eres el novato, no la IA

Dónde la IA probablemente te ralentiza

Tu propio codebase maduro: Donde ya eres experto
Código con estándares altos: Donde cada detalle importa
Arquitectura compleja: Donde el contexto implícito es clave
Debugging profundo: Donde necesitas entender el "por qué"

Para las empresas: cuidado con el ROI fantasma

Si eres líder técnico o CTO, este estudio debería hacerte repensar cómo mides el impacto de las herramientas de IA en tu equipo.

Errores comunes

Medir por percepciones: "¿Te sientes más productivo?" no es una métrica válida
Adopción sin entrenamiento: Instalar Copilot no es lo mismo que integrarlo correctamente
Ignorar la curva de aprendizaje: 50+ horas de práctica intensiva no suceden en una semana
Escalar antes de validar: Usar IA donde no tiene sentido

Lo que sí funciona

Adoptar mentalidad de portafolio: Usar IA donde aumenta cognición (docs, boilerplate), no donde la experiencia humana domina
Medir objetivamente: Tiempo real por tarea, no encuestas de satisfacción
Identificar casos de uso reales: No todas las tareas se benefician igual
Dar tiempo de aprendizaje: Si esperas resultados en la primera semana, te decepcionarás

El contexto de mercado: valoraciones vs. realidad

Mientras tanto, las valoraciones de empresas de coding AI siguen subiendo:

Empresa	Valoración	Fecha
Cursor	$29.3 mil millones	Noviembre 2025
Cognition (Devin)	$10.2 mil millones	Septiembre 2025

Cursor reportó más de $1.000 millones en ingresos anualizados en noviembre de 2025. El mercado está pagando por adopción, no por productividad comprobada.

Esto no significa que estas empresas no tengan valor. Significa que el valor que el mercado les asigna está basado en promesas, no en evidencia rigurosa.

La pregunta incómoda

Si la IA realmente hiciera a los desarrolladores 55% más rápidos, ¿por qué las empresas de software no han reducido sus equipos de ingeniería a la mitad? ¿Por qué siguen contratando al mismo ritmo?

La respuesta probable: porque los CTOs que usan estas herramientas día a día saben que los números de marketing no se traducen a productividad real. Saben que un desarrollador senior con experiencia en el codebase sigue siendo insustituible.

Mi conclusión

Después de analizar este estudio y docenas de fuentes, esto es lo que pienso:

Las herramientas de IA para programar tienen valor real, pero no el que nos venden. Son útiles para tareas específicas, para ciertos perfiles de desarrollador, en ciertos contextos. No son una varita mágica que multiplica la productividad de todos.

El problema no es la tecnología. Es la narrativa. Nos han vendido que la IA es el futuro del desarrollo de software, cuando en realidad es una herramienta más en el arsenal del programador. Una herramienta que, como todas, tiene su lugar y sus limitaciones.

Si usas Cursor o Claude Code, sigue haciéndolo. Pero mide tu productividad real. No te dejes engañar por la sensación de que todo es más fácil. Fácil no siempre significa rápido.

Y si alguien te dice que la IA te hará 55% más productivo, pregúntale: ¿en qué contexto? ¿Con qué experiencia previa? ¿En qué tipo de tareas?

Los datos de METR sugieren que la respuesta honesta es más complicada de lo que la industria quiere admitir.