reviews

DeepSeek-V4: China entrena IA por $5.6M mientras OpenAI gasta $100M

Una startup de Hangzhou está reescribiendo las reglas de la inteligencia artificial con una fracción del presupuesto de Silicon Valley. Su arma secreta: la arquitectura mHC.

Carlos VegaCarlos Vega-29 de enero de 2026-14 min de lectura
Compartir:
Visualización abstracta de red neuronal artificial representando la arquitectura de inteligencia artificial

Foto de Cash Macanaya en Unsplash

En resumen

DeepSeek-V4 llega en febrero de 2026 prometiendo superar a GPT-5 en programación con un costo de entrenamiento 20 veces menor. Te explico cómo funciona la arquitectura mHC, quién es el misterioso fundador y por qué 15 países ya han baneado esta IA.

El momento Sputnik de la inteligencia artificial

Te lo explico fácil: imagina que una startup con una fracción del presupuesto de OpenAI consigue crear una IA que compite cara a cara con GPT-5. Que entrena sus modelos por $5.6 millones cuando a OpenAI le cuesta $100 millones o más. Que publica los pesos de sus modelos gratis para que cualquiera los use.

Eso es exactamente lo que está haciendo DeepSeek.

El 27 de enero de 2025, cuando DeepSeek lanzó su modelo R1, NVIDIA perdió $600 mil millones en valor de mercado en un solo día. La mayor pérdida de una empresa en la historia de Wall Street. Microsoft perdió otros $150 mil millones. Los analistas lo llamaron el "momento Sputnik" de la IA.

Y ahora, en febrero de 2026, llega DeepSeek-V4. Las filtraciones internas sugieren que podría superar a Claude Opus 4.5 en programación con un modelo de 1 trillón de parámetros y una ventana de contexto de 1 millón de tokens.

El truco está en una innovación llamada mHC (Manifold-Constrained Hyper-Connections) que permite entrenar modelos más grandes con menos hardware. Y lo que nadie te cuenta es que esto cambia fundamentalmente la economía de la inteligencia artificial.

Qué es DeepSeek y por qué debería importarte

DeepSeek no es una startup típica de Silicon Valley. Es una empresa china fundada en Hangzhou por un ex-trader cuantitativo que decidió usar las ganancias de su hedge fund para construir AGI.

Los números que importan

Métrica DeepSeek OpenAI Anthropic
Costo entrenamiento modelo flagship $5.6M $100M+ No revelado
Precio API (input/1M tokens) $0.28 $2.50-$3.00 $3.00
Precio API (output/1M tokens) $0.42 $10.00 $15.00
Modelo open source Sí (pesos públicos) No No
Valoración ~$3.4B $300B+ $60B+

Lo que nadie te cuenta es la magnitud de esta diferencia: por el mismo dinero que cuesta usar GPT-4o, puedes hacer 10-40 veces más consultas con DeepSeek. Un contexto de 100K tokens que cuesta $5.50 en GPT-4 cuesta $0.90 en DeepSeek.

DeepSeek V3 vs los gigantes (benchmarks actuales)

Benchmark DeepSeek V3 GPT-4o Claude 3.5 Sonnet
MMLU-Pro (conocimiento general) 75.9 ~77 ~76
GPQA (ciencia avanzada) 59.1 ~58 ~59
MATH-500 (matemáticas) 90.2% ~85% ~88%
LiveCodeBench (programación) #1 Top 5 Top 3

DeepSeek ya lidera en matemáticas y programación. Con V4, aspira a dominar completamente el nicho de coding.

La arquitectura mHC: el secreto de la eficiencia

Aquí es donde la cosa se pone técnica, pero te lo explico de forma que tenga sentido.

El problema que resuelve mHC

Imagina que estás entrenando una red neuronal muy grande. Conforme añades más capas, la información que fluye por la red tiende a amplificarse de forma descontrolada. Es como un micrófono que produce feedback: una señal pequeña se amplifica hasta convertirse en ruido insoportable.

Este fenómeno se llama explosión de gradientes y es uno de los principales obstáculos para entrenar modelos más grandes. La solución tradicional es usar más poder de cómputo para estabilizar el entrenamiento. Más GPUs, más dinero, más tiempo.

mHC propone algo diferente: en lugar de dejar que la información se amplifique sin control, la proyecta sobre una estructura matemática llamada manifold que garantiza que la cantidad total de información se conserve.

Cómo funciona (simplificado)

  1. Múltiples streams paralelos: En lugar de un solo camino para la información, mHC usa 4 "streams" que procesan datos en paralelo

  2. Restricción de Sinkhorn-Knopp: Un algoritmo matemático que asegura que cuando la información se mezcla entre streams, no se amplifica. Puede redistribuirse, pero nunca crecer descontroladamente

  3. Ganancia máxima controlada: Mientras las arquitecturas tradicionales pueden amplificar señales hasta 3000 veces, mHC limita la amplificación a ~1.6 veces

Los resultados concretos

Métrica Con mHC Sin mHC
Overhead de entrenamiento +6.7% Base
Estabilidad Alta Baja en modelos grandes
BIG-Bench Hard (razonamiento) +2.1% mejora Base
Escalabilidad Probado hasta 27B params Limitado por explosión gradientes

El truco está en que ese 6.7% extra de cómputo durante el entrenamiento te ahorra tener que usar 10x más GPUs para estabilizar el proceso. Es una inversión pequeña con un retorno enorme.

Liang Wenfeng: el fundador que nadie conoce

Si me preguntas quién es la persona más importante en IA que casi nadie conoce, te diría que es Liang Wenfeng.

De pueblo rural a hedge fund billonario

Dato Detalle
Nacimiento 1985, aldea Mililing, Wuchuan, Guangdong
Padres Ambos maestros de escuela primaria
Educación Bachelor (2007) y Master (2010) en ingeniería electrónica, Zhejiang University
Patrimonio estimado ~$4.5 mil millones (2025)

Liang fundó High-Flyer, un hedge fund de trading cuantitativo, en 2016. Para 2021, gestionaba más de 100 mil millones de yuan (~$14 mil millones). La estrategia: usar algoritmos de machine learning para predecir movimientos del mercado.

De hedge fund a laboratorio de IA

En abril de 2023, Liang anunció que convertiría parte de High-Flyer en un laboratorio de AGI. En julio, ese laboratorio se independizó como DeepSeek.

Lo que nadie te cuenta es cómo lo financió: 100% con dinero propio. Cuando los VCs de Silicon Valley le ofrecieron inversión, Liang los rechazó. No quería la presión de "exits" rápidos ni la interferencia de inversores.

El golpe maestro: 10,000 GPUs A100

Antes de que EE.UU. restringiera la exportación de chips avanzados a China, Liang adquirió 10,000 GPUs NVIDIA A100. Esos chips, ahora prohibidos, son la infraestructura que permite a DeepSeek competir con OpenAI.

Según algunos reportes, DeepSeek podría tener hasta 50,000 GPUs Hopper incluyendo algunos H100 obtenidos a través de intermediarios. NVIDIA lo niega, afirmando que DeepSeek solo usa "H800 adquiridos legalmente" (una versión limitada permitida para China).

DeepSeek-V4: lo que sabemos (y lo que no)

DeepSeek-V4 aún no ha sido lanzado oficialmente. Se espera para mediados de febrero de 2026. Pero las filtraciones y actualizaciones en GitHub revelan mucho.

Especificaciones filtradas

Característica DeepSeek-V4 (filtrado)
Parámetros ~1 trillón (modelo MoE)
Ventana de contexto 1 millón de tokens (con DSA)
Arquitectura MoE + mHC + Engram
Hardware consumidor 2x RTX 4090 o 1x RTX 5090
Eficiencia vs Transformers -50% overhead
Pesos abiertos Sí (probable)

El "Reasoning Core"

Una de las innovaciones más interesantes es lo que DeepSeek llama Reasoning Core: un módulo separado dentro del modelo especializado en razonamiento paso a paso. Imagina que el modelo tiene un "modo de pensamiento profundo" que puede activar para problemas complejos.

Esto es similar a lo que OpenAI hizo con o1/o3, pero integrado directamente en la arquitectura base.

Comparativa proyectada con competidores

Aspecto DeepSeek V4 Claude Opus 4.5 GPT-5
SWE-bench (coding) >80% (leak) 80.9% ~78%
Contexto 1M tokens 200K 128K
Precio esperado 10-40x más barato Premium Premium
Pesos abiertos No No
Disponibilidad Global (con restricciones) Global Global

Por qué 15 países han baneado DeepSeek

Aquí es donde la geopolítica entra en juego. DeepSeek no solo es una amenaza técnica para Silicon Valley; es una amenaza de seguridad nacional según varios gobiernos.

Países que han baneado o restringido DeepSeek

País/Región Fecha Alcance Razón oficial
Italia Enero 2025 Total Violación GDPR
Australia Febrero 2025 Gobierno Riesgo seguridad nacional
Taiwán Febrero 2025 Gobierno + escuelas Peligro información nacional
Corea del Sur Febrero 2025 Gobierno Recolección de datos
República Checa Julio 2025 Administración pública Servidores en China/Rusia
India 2025 Ministerio Finanzas Vulnerabilidad de datos
EE.UU. Varios NASA, Navy, Congreso, Texas Acceso extranjero

Empresas como Microsoft, Mitsubishi Heavy Industries y Toyota también han prohibido su uso interno.

El problema legal

La razón de fondo es simple: según la política de privacidad de DeepSeek, todos los datos de usuario se almacenan en servidores en China. Y según la Ley de Inteligencia Nacional de China (2017), cualquier organización debe "apoyar, asistir y cooperar con esfuerzos de inteligencia nacional".

En otras palabras: el gobierno chino puede legalmente exigir acceso a tus conversaciones con DeepSeek sin notificarte.

El impacto en la industria: ¿fin del modelo de negocio de OpenAI?

Lo que nadie te cuenta es que DeepSeek no solo amenaza la tecnología de Silicon Valley. Amenaza su modelo de negocio.

La matemática que asusta a OpenAI

Si DeepSeek puede entrenar modelos comparables por $5.6 millones en lugar de $100 millones, y luego los publica gratis con pesos abiertos, ¿por qué pagarías $20 al mes por ChatGPT Plus?

Jack Clark, cofundador de Anthropic, lo dijo claramente:

"DeepSeek significa que la proliferación de IA está garantizada."

Ya hay desarrolladores corriendo modelos DeepSeek localmente en sus propios servidores. Sin suscripciones mensuales. Sin límites de uso. Sin que sus datos vayan a ninguna empresa.

La respuesta de Silicon Valley

Las empresas estadounidenses están respondiendo de varias formas:

  1. Reducción de precios: OpenAI y Anthropic han bajado precios de API significativamente en el último año

  2. Énfasis en seguridad: Posicionándose como la opción "segura" frente a modelos chinos

  3. Integración vertical: Microsoft, Google y Amazon usan sus modelos en productos propios donde el costo de la IA es secundario

  4. Diferenciación: Enfocándose en casos de uso enterprise donde la confianza y el soporte importan más que el precio

Cómo usar DeepSeek (si decides hacerlo)

Si después de leer todo esto quieres probar DeepSeek, aquí tienes las opciones.

Opción 1: API oficial

  • Sitio: platform.deepseek.com
  • Precio: $0.28/1M tokens input, $0.42/1M tokens output
  • Advertencia: Tus datos van a servidores en China

Opción 2: Correrlo localmente

DeepSeek publica los pesos de sus modelos en Hugging Face y GitHub. Puedes descargarlos y correrlos en tu propio hardware.

Requisitos para V3 (versión actual):

  • Mínimo: 2x RTX 4090 (24GB VRAM cada una)
  • Recomendado: GPU con 80GB+ VRAM o cluster distribuido

Requisitos esperados para V4:

  • Mínimo: 1x RTX 5090 o 2x RTX 4090
  • Para contexto completo de 1M tokens: significativamente más

Opción 3: Proveedores intermediarios

Empresas como Together AI, Fireworks y otros ofrecen acceso a modelos DeepSeek desde infraestructura en EE.UU. Pagas un poco más pero tus datos no van directamente a China.

Preguntas frecuentes

¿DeepSeek es seguro de usar?

Depende de tu definición de "seguro". Técnicamente funciona bien. Pero si te preocupa que el gobierno chino pueda acceder a tus conversaciones, la respuesta es no: según sus propios términos de servicio, almacenan datos en China bajo leyes chinas. Para uso personal casual probablemente es irrelevante. Para información sensible de empresa, claramente no.

¿DeepSeek es mejor que ChatGPT?

En algunas cosas sí, en otras no. DeepSeek V3 lidera en matemáticas (MATH-500: 90.2%) y programación (LiveCodeBench: #1). GPT-4o tiene mejor conocimiento general (MMLU-Pro: 77 vs 75.9). Para la mayoría de usuarios, la diferencia práctica es mínima; la diferencia de precio es enorme.

¿Puedo correr DeepSeek en mi computadora?

Sí, si tienes hardware suficiente. Los modelos más pequeños (7B, 16B parámetros) corren en GPUs de consumidor. El modelo completo V3 necesita mínimo 2x RTX 4090. V4 probablemente necesitará más, aunque prometen optimizaciones para hardware de consumidor.

¿Por qué DeepSeek es tan barato?

Tres razones: (1) Innovaciones en arquitectura como mHC que reducen requisitos de cómputo, (2) Costos laborales más bajos en China, (3) No necesitan generar beneficios para inversores porque Liang lo financia con su propio dinero. Básicamente, DeepSeek opera más como un proyecto de investigación que como un negocio.

¿Cuándo sale DeepSeek-V4?

Se espera para mediados de febrero de 2026. No hay fecha exacta confirmada. Las actualizaciones en GitHub y filtraciones internas sugieren que el desarrollo está avanzado.

Conclusión: el futuro de la IA ya no se decide solo en Silicon Valley

DeepSeek representa algo más grande que una empresa o un modelo de IA. Representa el fin de la hegemonía estadounidense en inteligencia artificial.

Durante décadas, las tecnologías más avanzadas del mundo se desarrollaban en laboratorios de EE.UU. con presupuestos que ningún otro país podía igualar. DeepSeek demuestra que la eficiencia y la innovación pueden compensar la falta de recursos brutos.

El truco está en que esto tiene implicaciones enormes:

Para desarrolladores: El acceso a IA de frontera ya no requiere pagar suscripciones premium. Modelos comparables a GPT-4 están disponibles gratis con pesos abiertos.

Para empresas: El costo de integrar IA en productos se reduce 10-40x. Lo que antes era viable solo para Big Tech ahora está al alcance de startups.

Para la industria: La carrera de la IA ya no se gana con más dinero. Se gana con mejor investigación. OpenAI, Anthropic y Google tendrán que innovar más rápido, no solo gastar más.

Para la geopolítica: China ya no está "años detrás" de EE.UU. en IA. Está compitiendo cabeza a cabeza, y en algunos benchmarks, ganando.

Cuando DeepSeek-V4 se lance en febrero, probablemente veremos otro "DeepSeek Monday" en los mercados. Pero el verdadero impacto no será en las acciones de NVIDIA. Será en cómo pensamos sobre quién controla el futuro de la inteligencia artificial.


¿Usarías una IA china sabiendo que tus datos van a servidores bajo jurisdicción de Beijing? ¿O prefieres pagar 10x más por la "seguridad" de modelos occidentales? La respuesta a esa pregunta definirá el mercado de IA de los próximos años.

¿Te ha sido útil?
Carlos Vega
Escrito por

Carlos Vega

Divulgador tecnológico especializado en IA aplicada. Hace accesible lo complejo.

#deepseek#inteligencia artificial#ia china#mhc arquitectura#liang wenfeng#open source#llm#machine learning#geopolitica tech

Artículos Relacionados