×
×
Red Internacional
lid bot

Fuertes caídas en Wall Street. DeepSeek: claves para entender la irrupción de la IA China de la que habla el mundo

La emergencia de la startup china abre interrogantes sobre la hegemonía estadounidense en el campo de la Inteligencia Artificial. Fuertes caídas en Wall Street y debates sobre las innovaciones de la nueva herramienta.

Lunes 27 de enero 12:26

Escuchá esta nota

Los portales de todos los medios del mundo reflejan la noticia de Deepseek, una startup china de inteligencia artificial fundada en mayo de 2023 por un equipo de expertos en IA provenientes de universidades de élite como Tsinghua y Zhejiang, así como de empresas como Alibaba Cloud y Tencent.

DeepSeek nació en un contexto geopolítico y tecnológico en el que China busca liderar la IA global para 2030 bajo el plan "Nueva Generación de IA" iniciado en 2017. La empresa tiene su sede central en Hangzhou, una ciudad que se ha consolidado como un importante hub tecnológico en China.

En diciembre ya había sido noticia por el lanzamiento de DeepSeek V3. Este modelo es un LLM (Large Language Model) gigantesco con 671 mil millones de parámetros y ha sido entrenado en solo dos meses con un presupuesto significativamente menor que el de sus competidores occidentales. Se estima que ese entrenamiento costó alrededor de 5.5 millones de dólares, mientras que los gigantes como openAI destinan más de 80 millones en entrenamiento.

¿Deepseek punto de inflexión?

El 20 de enero Deepseek fue noticia nuevamente ya que lanzó DeepSeek-R1, que es comparado con el modelo de Open AI GPT 4o1. Conocidos como “modelos de razonamiento”, estos enfoques, permiten realizar una "cadena de pensamiento" que implica que el modelo descompone una pregunta en pasos intermedios, razonando de manera similar a como lo haría -supuestamente, desde el cognitivismo- un humano antes de llegar a una conclusión. Esta metodología ha demostrado mejorar el rendimiento del modelo en tareas que requieren razonamiento lógico y resolución de problemas.

Deepseek no se limitó a mejorar el status quo; lo replanteó desde cero. Sus innovaciones clave incluyen:

Reducción de costos sin sacrificar calidad: DeepSeek utiliza Reinforcement Learning (RL) en lugar de modelos preentrenados con grandes cantidades de datos supervisados, lo que contribuye a la reducción de costos. De esta manera logró entrenar modelos de IA con un costo de $5 millones, en lugar de los habituales $100 millones, y aún así alcanzar o superar el desempeño de modelos como GPT-4 en varias tareas.

Uso eficiente de memoria: DeepSeek optimiza el uso de memoria mediante técnicas avanzadas de distillation, que permiten transferir patrones de razonamiento desde modelos más grandes hacia modelos más pequeños. Esto no solo reduce la cantidad de recursos necesarios, sino que también mantiene un alto nivel de precisión en los resultados. Al enfocarse en arquitecturas como la de mezcla de expertos (MoE), logra que solo una fracción de los parámetros del modelo esté activa en cada tarea, optimizando significativamente la carga computacional.

Procesamiento más rápido: DeepSeek mejora el rendimiento en tareas de razonamiento mediante el uso de cadenas de pensamiento (Chain-of-Thought, CoT), que permiten procesar problemas complejos en pasos estructurados y eficientes. Este enfoque optimiza el uso de recursos y acelera el procesamiento, especialmente en tareas que requieren razonamientos extensos y detallados.

Arquitectura modular: La arquitectura de DeepSeek está basada en un sistema de mezcla de expertos (Mixture of Experts, MoE), donde solo los módulos necesarios para una tarea específica se activan. De los 671 mil millones de parámetros totales del modelo, apenas 37 mil millones están activos simultáneamente. Este diseño reduce significativamente la carga computacional y permite manejar tareas complejas con una fracción de los recursos habitualmente requeridos.

Deepseek y el impacto económico

La startup china ha desarrollado modelos de IA que requieren menos y más económicos chips, permitiendo que organizaciones más pequeñas e incluso proyectos individuales desarrollen IA avanzada utilizando hardware común, como GPUs de videojuegos. Este enfoque, aunque aun muy preliminar, podría poner en jaque la necesidad de grandes centros de datos y costosas infraestructuras, ampliando el acceso a tecnologías avanzadas.

Empresas como Nvidia, cuyo negocio depende de la venta de GPUs especializadas, podrían enfrentarse a desafíos significativos. Esto se refleja en su baja de 15% en las acciones que podría continuar si la tecnología de DeepSeek se adopta ampliamente.

Algunos especialistas anuncian que lo que estamos presenciando no es solo una innovación técnica, sino un punto de inflexión. Así como las PC reemplazaron a los mainframes y la computación en la nube hizo obsoletos muchos sistemas locales, esta innovación tiene el potencial de transformar cómo se desarrolla y utiliza la IA.

Esto ha generado múltiples debates sobre la competencia entre EEUU y China en el terreno de la IA. Hasta ahora gran parte de las innovaciones y las empresas líderes eran estadounidenses o de “occidente”, pero en el último tiempo China ha cobrado mayor protagonismo

Esta situación ha generado preocupación en Estados Unidos, donde se están considerando inversiones masivas para mantener su liderazgo en IA. Por ejemplo, hace unos días Trump anunció el proyecto, denominado "Stargate". Una colaboración entre OpenAI, SoftBank y Oracle, y tiene como objetivo construir centros de datos de IA en todo Estados Unidos. La inversión inicial será de 100.000 millones de dólares, con planes de alcanzar los 500.000 millones en los próximos.

La competencia en IA entre Estados Unidos y China no solo tiene implicaciones económicas, sino también geopolíticas, ya que ambas naciones buscan establecer estándares internacionales y dominar en aplicaciones clave de IA.

La censura de deepseek

Si bien los avances en términos tecnológicos son sorprendentes, Deepseek ha generado mucha controversia. Así como los modelos de IA de plataformas como ChatGPT y Gemini han sido criticados por el sesgo que las mismas tienen, Deepseek no se queda atrás. Algunos usuarios hablan estos días de censura en la app, a la que preguntan sobre la Masacre de Tiananmen de 1989 o si Taiwán forma parte de China, denunciando que la app se niega a comentar sobre estas cuestiones y sugiere al usuario que pregunte sobre problemas de "matemáticas, codificación y lógica".

OpenSource o expropiación

El debate entre modelos de inteligencia artificial propietarios y de código abierto ha cobrado relevancia en los últimos años. Un ejemplo importante es OpenAI, que se fundó en 2015 como una organización sin fines de lucro con el objetivo de “desarrollar IA para el beneficio de la humanidad”. Sin embargo, en 2019, OpenAI adoptó una estructura de "capped-profit" para atraer inversiones, permitiendo retornos limitados sobre la inversión. Recientemente, la organización ha considerado una transición hacia una empresa con fines de lucro, lo que ha generado debates sobre su misión original y la influencia de los inversores en su dirección.

Por otro lado, han surgido empresas que promueven modelos de código abierto, compartiendo sus investigaciones y modelos para que puedan ser descargados y ejecutados en servidores locales. Yann LeCun, considerado uno de los "padres modernos" de la IA y actual jefe de IA en Meta, ha afirmado que no es que China esté superando a Estados Unidos, sino que los modelos de código abierto están superando a los propietarios. LeCun destaca que modelos como DeepSeek han prosperado gracias a la investigación y al código abierto, lo que permite mejoras colectivas y beneficios más amplios.

Sin embargo, este debate no abarca toda la complejidad del control sobre los avances en IA. A pesar de los progresos en los modelos de código abierto, gran parte de estos desarrollos sigue estando en manos de unas pocas entidades que, muchas veces, se alinean con intereses de los sectores poderosos o terminan “vendiendo su alma al diablo”. Ese fue el caso del alineamiento absoluto de los empresarios tecnológicos norteamericanos en la asunción de Trump.

Otro claro ejemplo de esto es la colaboración entre OpenAI y Microsoft que ha generado mucha preocupación sobre la concentración de poder y la dirección de la investigación en IA.

El debate sobre el control de los avances de la IA es fundamental. Es por eso que tenemos que pelear por la expropiación de los grandes tecnológicos para democratizar el debate sobre qué y cómo avanzar para evitar que esta poderosa tecnología sea apropiada por los Musk o Xi Jinping de la vida.