DeepSeek-V4: China entrena IA por $5.6M mientras OpenAI gasta $100M

El momento Sputnik de la inteligencia artificial

Te lo explico fácil: imagina que una startup con una fracción del presupuesto de OpenAI consigue crear una IA que compite cara a cara con GPT-5. Que entrena sus modelos por $5.6 millones cuando a OpenAI le cuesta $100 millones o más. Que publica los pesos de sus modelos gratis para que cualquiera los use.

Eso es exactamente lo que está haciendo DeepSeek.

El 27 de enero de 2025, cuando DeepSeek lanzó su modelo R1, NVIDIA perdió $600 mil millones en valor de mercado en un solo día. La mayor pérdida de una empresa en la historia de Wall Street. Microsoft perdió otros $150 mil millones. Los analistas lo llamaron el "momento Sputnik" de la IA.

Y ahora, en febrero de 2026, llega DeepSeek-V4. Las filtraciones internas sugieren que podría superar a Claude Opus 4.5 en programación con un modelo de 1 trillón de parámetros y una ventana de contexto de 1 millón de tokens.

El truco está en una innovación llamada mHC (Manifold-Constrained Hyper-Connections) que permite entrenar modelos más grandes con menos hardware. Y lo que nadie te cuenta es que esto cambia fundamentalmente la economía de la inteligencia artificial.

Qué es DeepSeek y por qué debería importarte

DeepSeek no es una startup típica de Silicon Valley. Es una empresa china fundada en Hangzhou por un ex-trader cuantitativo que decidió usar las ganancias de su hedge fund para construir AGI.

Los números que importan

Métrica	DeepSeek	OpenAI	Anthropic
Costo entrenamiento modelo flagship	$5.6M	$100M+	No revelado
Precio API (input/1M tokens)	$0.28	$2.50-$3.00	$3.00
Precio API (output/1M tokens)	$0.42	$10.00	$15.00
Modelo open source	Sí (pesos públicos)	No	No
Valoración	~$3.4B	$300B+	$60B+

Lo que nadie te cuenta es la magnitud de esta diferencia: por el mismo dinero que cuesta usar GPT-4o, puedes hacer 10-40 veces más consultas con DeepSeek. Un contexto de 100K tokens que cuesta $5.50 en GPT-4 cuesta $0.90 en DeepSeek.

DeepSeek V3 vs los gigantes (benchmarks actuales)

Benchmark	DeepSeek V3	GPT-4o	Claude 3.5 Sonnet
MMLU-Pro (conocimiento general)	75.9	~77	~76
GPQA (ciencia avanzada)	59.1	~58	~59
MATH-500 (matemáticas)	90.2%	~85%	~88%
LiveCodeBench (programación)	#1	Top 5	Top 3

DeepSeek ya lidera en matemáticas y programación. Con V4, aspira a dominar completamente el nicho de coding.

La arquitectura mHC: el secreto de la eficiencia

Aquí es donde la cosa se pone técnica, pero te lo explico de forma que tenga sentido.

El problema que resuelve mHC

Imagina que estás entrenando una red neuronal muy grande. Conforme añades más capas, la información que fluye por la red tiende a amplificarse de forma descontrolada. Es como un micrófono que produce feedback: una señal pequeña se amplifica hasta convertirse en ruido insoportable.

Este fenómeno se llama explosión de gradientes y es uno de los principales obstáculos para entrenar modelos más grandes. La solución tradicional es usar más poder de cómputo para estabilizar el entrenamiento. Más GPUs, más dinero, más tiempo.

mHC propone algo diferente: en lugar de dejar que la información se amplifique sin control, la proyecta sobre una estructura matemática llamada manifold que garantiza que la cantidad total de información se conserve.

Cómo funciona (simplificado)

Múltiples streams paralelos: En lugar de un solo camino para la información, mHC usa 4 "streams" que procesan datos en paralelo
Restricción de Sinkhorn-Knopp: Un algoritmo matemático que asegura que cuando la información se mezcla entre streams, no se amplifica. Puede redistribuirse, pero nunca crecer descontroladamente
Ganancia máxima controlada: Mientras las arquitecturas tradicionales pueden amplificar señales hasta 3000 veces, mHC limita la amplificación a ~1.6 veces

Los resultados concretos

Métrica	Con mHC	Sin mHC
Overhead de entrenamiento	+6.7%	Base
Estabilidad	Alta	Baja en modelos grandes
BIG-Bench Hard (razonamiento)	+2.1% mejora	Base
Escalabilidad	Probado hasta 27B params	Limitado por explosión gradientes

El truco está en que ese 6.7% extra de cómputo durante el entrenamiento te ahorra tener que usar 10x más GPUs para estabilizar el proceso. Es una inversión pequeña con un retorno enorme.

Liang Wenfeng: el fundador que nadie conoce

Si me preguntas quién es la persona más importante en IA que casi nadie conoce, te diría que es Liang Wenfeng.

De pueblo rural a hedge fund billonario

Dato	Detalle
Nacimiento	1985, aldea Mililing, Wuchuan, Guangdong
Padres	Ambos maestros de escuela primaria
Educación	Bachelor (2007) y Master (2010) en ingeniería electrónica, Zhejiang University
Patrimonio estimado	~$4.5 mil millones (2025)

Liang fundó High-Flyer, un hedge fund de trading cuantitativo, en 2016. Para 2021, gestionaba más de 100 mil millones de yuan (~$14 mil millones). La estrategia: usar algoritmos de machine learning para predecir movimientos del mercado.

De hedge fund a laboratorio de IA

En abril de 2023, Liang anunció que convertiría parte de High-Flyer en un laboratorio de AGI. En julio, ese laboratorio se independizó como DeepSeek.

Lo que nadie te cuenta es cómo lo financió: 100% con dinero propio. Cuando los VCs de Silicon Valley le ofrecieron inversión, Liang los rechazó. No quería la presión de "exits" rápidos ni la interferencia de inversores.

El golpe maestro: 10,000 GPUs A100

Antes de que EE.UU. restringiera la exportación de chips avanzados a China, Liang adquirió 10,000 GPUs NVIDIA A100. Esos chips, ahora prohibidos, son la infraestructura que permite a DeepSeek competir con OpenAI.

Según algunos reportes, DeepSeek podría tener hasta 50,000 GPUs Hopper incluyendo algunos H100 obtenidos a través de intermediarios. NVIDIA lo niega, afirmando que DeepSeek solo usa "H800 adquiridos legalmente" (una versión limitada permitida para China).

DeepSeek-V4: lo que sabemos (y lo que no)

DeepSeek-V4 aún no ha sido lanzado oficialmente. Se espera para mediados de febrero de 2026. Pero las filtraciones y actualizaciones en GitHub revelan mucho.

Especificaciones filtradas

Característica	DeepSeek-V4 (filtrado)
Parámetros	~1 trillón (modelo MoE)
Ventana de contexto	1 millón de tokens (con DSA)
Arquitectura	MoE + mHC + Engram
Hardware consumidor	2x RTX 4090 o 1x RTX 5090
Eficiencia vs Transformers	-50% overhead
Pesos abiertos	Sí (probable)

El "Reasoning Core"

Una de las innovaciones más interesantes es lo que DeepSeek llama Reasoning Core: un módulo separado dentro del modelo especializado en razonamiento paso a paso. Imagina que el modelo tiene un "modo de pensamiento profundo" que puede activar para problemas complejos.

Esto es similar a lo que OpenAI hizo con o1/o3, pero integrado directamente en la arquitectura base.

Comparativa proyectada con competidores

Aspecto	DeepSeek V4	Claude Opus 4.5	GPT-5
SWE-bench (coding)	>80% (leak)	80.9%	~78%
Contexto	1M tokens	200K	128K
Precio esperado	10-40x más barato	Premium	Premium
Pesos abiertos	Sí	No	No
Disponibilidad	Global (con restricciones)	Global	Global

Por qué 15 países han baneado DeepSeek

Aquí es donde la geopolítica entra en juego. DeepSeek no solo es una amenaza técnica para Silicon Valley; es una amenaza de seguridad nacional según varios gobiernos.

Países que han baneado o restringido DeepSeek

País/Región	Fecha	Alcance	Razón oficial
Italia	Enero 2025	Total	Violación GDPR
Australia	Febrero 2025	Gobierno	Riesgo seguridad nacional
Taiwán	Febrero 2025	Gobierno + escuelas	Peligro información nacional
Corea del Sur	Febrero 2025	Gobierno	Recolección de datos
República Checa	Julio 2025	Administración pública	Servidores en China/Rusia
India	2025	Ministerio Finanzas	Vulnerabilidad de datos
EE.UU.	Varios	NASA, Navy, Congreso, Texas	Acceso extranjero

Empresas como Microsoft, Mitsubishi Heavy Industries y Toyota también han prohibido su uso interno.

El problema legal

La razón de fondo es simple: según la política de privacidad de DeepSeek, todos los datos de usuario se almacenan en servidores en China. Y según la Ley de Inteligencia Nacional de China (2017), cualquier organización debe "apoyar, asistir y cooperar con esfuerzos de inteligencia nacional".

En otras palabras: el gobierno chino puede legalmente exigir acceso a tus conversaciones con DeepSeek sin notificarte.

El impacto en la industria: ¿fin del modelo de negocio de OpenAI?

Lo que nadie te cuenta es que DeepSeek no solo amenaza la tecnología de Silicon Valley. Amenaza su modelo de negocio.

La matemática que asusta a OpenAI

Si DeepSeek puede entrenar modelos comparables por $5.6 millones en lugar de $100 millones, y luego los publica gratis con pesos abiertos, ¿por qué pagarías $20 al mes por ChatGPT Plus?

Jack Clark, cofundador de Anthropic, lo dijo claramente:

"DeepSeek significa que la proliferación de IA está garantizada."

Ya hay desarrolladores corriendo modelos DeepSeek localmente en sus propios servidores. Sin suscripciones mensuales. Sin límites de uso. Sin que sus datos vayan a ninguna empresa.

La respuesta de Silicon Valley

Las empresas estadounidenses están respondiendo de varias formas:

Reducción de precios: OpenAI y Anthropic han bajado precios de API significativamente en el último año
Énfasis en seguridad: Posicionándose como la opción "segura" frente a modelos chinos
Integración vertical: Microsoft, Google y Amazon usan sus modelos en productos propios donde el costo de la IA es secundario
Diferenciación: Enfocándose en casos de uso enterprise donde la confianza y el soporte importan más que el precio

Cómo usar DeepSeek (si decides hacerlo)

Si después de leer todo esto quieres probar DeepSeek, aquí tienes las opciones.

Opción 1: API oficial

Sitio: platform.deepseek.com
Precio: $0.28/1M tokens input, $0.42/1M tokens output
Advertencia: Tus datos van a servidores en China

Opción 2: Correrlo localmente

DeepSeek publica los pesos de sus modelos en Hugging Face y GitHub. Puedes descargarlos y correrlos en tu propio hardware.

Requisitos para V3 (versión actual):

Mínimo: 2x RTX 4090 (24GB VRAM cada una)
Recomendado: GPU con 80GB+ VRAM o cluster distribuido

Requisitos esperados para V4:

Mínimo: 1x RTX 5090 o 2x RTX 4090
Para contexto completo de 1M tokens: significativamente más

Opción 3: Proveedores intermediarios

Empresas como Together AI, Fireworks y otros ofrecen acceso a modelos DeepSeek desde infraestructura en EE.UU. Pagas un poco más pero tus datos no van directamente a China.

Preguntas frecuentes

¿DeepSeek es seguro de usar?

Depende de tu definición de "seguro". Técnicamente funciona bien. Pero si te preocupa que el gobierno chino pueda acceder a tus conversaciones, la respuesta es no: según sus propios términos de servicio, almacenan datos en China bajo leyes chinas. Para uso personal casual probablemente es irrelevante. Para información sensible de empresa, claramente no.

¿DeepSeek es mejor que ChatGPT?

En algunas cosas sí, en otras no. DeepSeek V3 lidera en matemáticas (MATH-500: 90.2%) y programación (LiveCodeBench: #1). GPT-4o tiene mejor conocimiento general (MMLU-Pro: 77 vs 75.9). Para la mayoría de usuarios, la diferencia práctica es mínima; la diferencia de precio es enorme.

¿Puedo correr DeepSeek en mi computadora?

Sí, si tienes hardware suficiente. Los modelos más pequeños (7B, 16B parámetros) corren en GPUs de consumidor. El modelo completo V3 necesita mínimo 2x RTX 4090. V4 probablemente necesitará más, aunque prometen optimizaciones para hardware de consumidor.

¿Por qué DeepSeek es tan barato?

Tres razones: (1) Innovaciones en arquitectura como mHC que reducen requisitos de cómputo, (2) Costos laborales más bajos en China, (3) No necesitan generar beneficios para inversores porque Liang lo financia con su propio dinero. Básicamente, DeepSeek opera más como un proyecto de investigación que como un negocio.

¿Cuándo sale DeepSeek-V4?

Se espera para mediados de febrero de 2026. No hay fecha exacta confirmada. Las actualizaciones en GitHub y filtraciones internas sugieren que el desarrollo está avanzado.

Conclusión: el futuro de la IA ya no se decide solo en Silicon Valley

DeepSeek representa algo más grande que una empresa o un modelo de IA. Representa el fin de la hegemonía estadounidense en inteligencia artificial.

Durante décadas, las tecnologías más avanzadas del mundo se desarrollaban en laboratorios de EE.UU. con presupuestos que ningún otro país podía igualar. DeepSeek demuestra que la eficiencia y la innovación pueden compensar la falta de recursos brutos.

El truco está en que esto tiene implicaciones enormes:

Para desarrolladores: El acceso a IA de frontera ya no requiere pagar suscripciones premium. Modelos comparables a GPT-4 están disponibles gratis con pesos abiertos.

Para empresas: El costo de integrar IA en productos se reduce 10-40x. Lo que antes era viable solo para Big Tech ahora está al alcance de startups.

Para la industria: La carrera de la IA ya no se gana con más dinero. Se gana con mejor investigación. OpenAI, Anthropic y Google tendrán que innovar más rápido, no solo gastar más.

Para la geopolítica: China ya no está "años detrás" de EE.UU. en IA. Está compitiendo cabeza a cabeza, y en algunos benchmarks, ganando.

Cuando DeepSeek-V4 se lance en febrero, probablemente veremos otro "DeepSeek Monday" en los mercados. Pero el verdadero impacto no será en las acciones de NVIDIA. Será en cómo pensamos sobre quién controla el futuro de la inteligencia artificial.

¿Usarías una IA china sabiendo que tus datos van a servidores bajo jurisdicción de Beijing? ¿O prefieres pagar 10x más por la "seguridad" de modelos occidentales? La respuesta a esa pregunta definirá el mercado de IA de los próximos años.