DeepSeek: China vs. los tecno-fascistas de Silicon Valley - Axis Mundi

Como bien saben los amables lectores, la empresa china de Inteligencia Artificial (IA) DeepSeek («Búsqueda Profunda») ha conmocionado a la comunidad tecnológica con el reciente lanzamiento de modelos de IA extremadamente eficientes que pueden competir con productos de vanguardia de empresas estadounidenses tales como OpenAI y Anthropic.[i]

Para horror de las mega–corporaciones tecnológicas de Silicon Valley[ii] —cuya filiación fascista ha quedado en evidencia merced a su apoyo a la bestia Trump—,[iii] DeepSeek, fundada en 2023, ha logrado sus notables resultados con una fracción del dinero y la potencia de cálculo de sus competidores.[iv]

De esta manera, el modelo de «razonamiento» R1 de DeepSeek, presentado la semana pasada, provocó entusiasmo entre los investigadores, conmoción en el ámbito de los inversionistas y respuestas de los ciber–magnates de la IA, cuando la empresa reveló, el 28 de enero, un modelo capaz de trabajar tanto con imágenes como con texto.

Pero, ¿qué es lo que ha hecho DeepSeek y cómo lo ha logrado? En diciembre de 2024, la compañía china lanzó su modelo V3, un sistema «estándar» muy potente que funciona a un nivel similar al GPT-4o de OpenAI y al Claude 3.5 de Anthropic.[v]

Y como sabemos quienes los hemos empleado, estos modelos son propensos a cometer errores y a veces inventan sus propios datos, aunque de igual forma pueden llevar a cabo tareas como responder preguntas, escribir redacciones y generar código informático, incluso, en algunas pruebas de resolución de problemas y razonamiento matemático, obtienen mejores resultados que el ser humano promedio.

Sorprendentemente, el desarrollo de V3 costó unos 5.58 millones de dólares, muchísimo menos que el GPT-4, por ejemplo, cuya implementación totalizó más de 100 millones de dólares. Además, DeepSeek afirma haber entrenado a V3 utilizando unos 2,000 chips informáticos especializados, concretamente GPUs[vi] H800 fabricados por NVIDIA. De nuevo, se trata de un número mucho menor que el de otras empresas, que pueden haber utilizado hasta 16,000 de los chips H100, más potentes que los de NVIDIA.[vii]

Así, para el 20 de enero del presente año, DeepSeek lanzó otro modelo, llamado R1, un sistema denominado de «razonamiento», que intenta resolver problemas complejos paso a paso. Cabe señalar que tales modelos parecen ser mejores en muchas tareas que requieren contexto y tienen múltiples partes interrelacionadas, como la comprensión lectora y la planificación estratégica.[viii]

De este modo, el modelo R1 es una versión más precisa del V3, modificada con una técnica llamada «aprendizaje por refuerzo», la cual lo hace funcionar a un nivel similar al o1 de OpenAI, lanzado el año pasado. En tal sentido, DeepSeek utilizó la misma técnica para hacer versiones «razonadas» de pequeños modelos de código abierto que pueden ejecutarse en computadoras domésticas.[ix]

Y como pudimos observar en periódicos, noticiarios y redes sociales, este lanzamiento ha suscitado un enorme interés por DeepSeek, disparando la popularidad de su aplicación de chatbot V3, mientras provocaba una caída masiva de los precios de las acciones tecnológicas, a medida que los inversionistas reevalúan la industria de la IA: para el 29 de enero, el fabricante de chips NVIDIA había perdido unos 600,000 millones de dólares.[x]

Por otra parte, los avances de DeepSeek han consistido en lograr una mayor eficiencia, al obtener buenos resultados con menos recursos. En concreto, los desarrolladores de la empresa china han sido pioneros en dos técnicas que podrían adoptar los investigadores de la IA en general:

La primera tiene que ver con una idea matemática llamada «dispersión»:[xi] los modelos de IA tienen muchos parámetros que determinan sus respuestas a las entradas (V3 tiene unos 671,000 millones), pero sólo una pequeña fracción de dichos parámetros se utiliza para una entrada determinada. Sin embargo, no es fácil predecir qué parámetros serán necesarios por lo que DeepSeek utilizó una nueva técnica para hacerlo y, a continuación, entrenó sólo dichos parámetros. Como resultado, sus modelos necesitaron mucho menos entrenamiento que un enfoque convencional.
El otro truco tiene que ver con la forma en que V3 almacena la información en la memoria de la computadora: DeepSeek ha encontrado una forma inteligente de comprimir los datos relevantes, para que resulte más fácil almacenarlos y acceder a ellos rápidamente.

Por si fuera poco, los modelos y técnicas de DeepSeek se han publicado bajo la licencia libre MIT,[xii] lo que significa que cualquiera puede descargarlos y modificarlos. Aunque esto puede ser una mala noticia para algunas empresas de IA —cuyos beneficios podrían verse mermados por la existencia de modelos potentes de libre acceso—, resulta un gran anuncio para la comunidad investigadora de Inteligencia Artificial en general.

Por lógica sabemos que, en la actualidad, gran parte de la investigación en IA requiere el acceso a enormes cantidades de recursos informáticos: los investigadores que trabajan en universidades (o en cualquier otro lugar, salvo las grandes empresas tecnológicas) han tenido una capacidad limitada para llevar a cabo pruebas y experimentos. Por ende, modelos y técnicas más eficaces cambian la situación, gracias a lo cual, la experimentación y el desarrollo pueden ser mucho más fáciles para quienes laboran en este ámbito.

Además, para nosotros, los consumidores en México y Latinoamérica, el acceso a la IA también puede abaratarse: es posible que más modelos de IA puedan ejecutarse en los propios dispositivos de los usuarios, como laptops o smartphones, en lugar de funcionar «en la nube» por una cuota de suscripción; de acuerdo con el modelo informático que nos ocupa:

«La IA de DeepSeek destaca por su capacidad para adaptarse a contextos locales y ofrecer soluciones personalizadas, lo que la hace especialmente relevante para usuarios en México y América Latina. Técnicamente, su modelo de lenguaje está entrenado con un enfoque multilingüe y multicultural, lo que le permite comprender y generar respuestas en español con matices regionales, incluyendo modismos y expresiones locales. Además, su arquitectura optimizada permite un procesamiento rápido y eficiente, incluso en dispositivos con limitaciones de hardware, algo crucial en regiones donde el acceso a tecnología de punta puede ser desigual. DeepSeek también integra herramientas avanzadas de análisis de datos y aprendizaje automático, lo que facilita su aplicación en sectores clave como educación, salud y finanzas, ayudando a resolver desafíos específicos de la región. Su enfoque en la privacidad y la seguridad de los datos añade un valor adicional, generando confianza entre los usuarios».

Sin embargo, como era de esperarse en un terreno tan tóxico como la «libre competencia capitalista», los ataques mediáticos y cibernéticos contra la empresa china han ido en aumento en los días recientes,[xiii] de hecho, al momento de escribir estas líneas, DeepSeek se halla incapacitada para admitir nuevos usuarios, debido a los millones de agresiones informáticas que está sufriendo,[xiv] posiblemente por parte de ciber-criminales y hackers a sueldo de gobiernos y compañías occidentales, como la propia IA nos dice:

«La IA de DeepSeek, como otras tecnologías avanzadas, se enfrenta a ciberataques y críticas en los medios occidentales debido a una combinación de factores técnicos, geopolíticos y sociales. Técnicamente, su sofisticación la convierte en un objetivo atractivo para actores maliciosos que buscan explotar vulnerabilidades o robar datos. Geopolíticamente, el desarrollo de IA en China, donde DeepSeek tiene sus raíces, genera desconfianza en algunos sectores occidentales, lo que se traduce en narrativas críticas o alarmistas. Socialmente, el temor al avance de la IA y su impacto en empleos, privacidad y seguridad alimenta percepciones negativas. Estos elementos, sumados a la competencia tecnológica global, explican en parte los ataques y las malas reseñas».

Como podemos ver, lamentablemente aún no está claro si el enfoque de DeepSeek ayudará a crear modelos de IA más eficientes y al alcance de todo mundo o terminará por ser aniquilado por los tecno–fascistas de Silicon Valley.[xv]

[i] https://www.xataka.com/robotica-e-ia/deepseek-r1-no-es-solo-otro-modelo-de-ia-es-la-mayor-amenaza-existencial-que-ha-enfrentado-silicon-valley

[ii] https://www.semana.com/tecnologia/articulo/que-es-el-silicon-valley-y-por-que-es-importante-en-la-industria-de-la-tecnologia/202117/

[iii] https://www.theguardian.com/technology/ng-interactive/2025/jan/29/silicon-valley-rightwing-technofascism

[iv] https://kvia.com/news/noticias/cnn-spanish/2025/01/28/analisis-deepseek-acaba-de-hacer-estallar-la-narrativa-de-la-industria-de-la-ia-de-que-necesita-mas-dinero-y-poder/

[v] https://legrandcontinent.eu/es/2025/01/25/china-ha-desarrollado-una-ia-tan-competente-como-chatgpt-por-un-7-del-coste/

[vi] https://www.nvidia.com/es-la/drivers/what-is-gpu-computing/

[vii] https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/

[viii] https://www.datacamp.com/es/tutorial/fine-tuning-deepseek-r1-reasoning-model

[ix] https://es.wired.com/articulos/deepseek-asi-es-nuevo-modelo-de-ia-chino

[x] https://es-us.noticias.yahoo.com/deepseek-irrupci%C3%B3n-chatgpt-chino-hunde-152902526.html

[xi] https://definicion.de/dispersion/

[xii] https://appmaster.io/es/glossary/licencia-mit