¿Por qué la aparición de DeepSeek en el mercado afectaría los valores de las acciones de NVidia y toda la industria?
La semana pasada apareció en escena una nueva empresa con un nuevo modelo, uno diría "uno más", pero DeepSeek no es "uno más" por un par de razones: es más potente en muchos aspectos que los mejores del mercado, es Open Source y gratuito y... el costo de entrenamiento resultó ser una ínfima fracción de lo que han gastado sus rivales.
¿Cambiará la industria? Por supuesto! Si esto cambia a cada mes...
Una de las particularidades del entrenamiento de modelos de AI es la enorme cantidad de cómputo que se necesita para lograrlo.
Los modelos buscan abarcar todos los temas posibles, se entrenan con alta precisión de 32 bits, esto obliga al uso de enormes placas de video como la NVidia H100 que cuesta alrededor de USD 40.000 cada una.
Empresas como OpenAI, Anthropic, Meta o Amazon tienen decenas de miles de estas placas de video en sus datacenters. Eso es mucho dinero junto, la mayoría sin uso en el día a día hasta que luego hay que usarlas para entrenar otra versión.
Ahora multipliquen ese poder por la energía que hay que usar para alimentarlos, luego tomen cualquier modelo de 400 billones de parámetros y cárguenlo en gigas y gigas de RAM que nadie tiene en su casa.
Cada vez que usamos ChatGPT o Claude estamos apelando a esos racks de servidores llenos de placas que no podríamos pagar. Todas cargando un modelo gigante que puede resolver millones de diversos pedidos.
Desde DeepSeek se preguntaron ¿Cómo puedo hacer todo eso mucho más barato?
"DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training."
No es que, como muchos quieren creer, en China no se consigan las placas de video de NVidia por el bloqueo de AI que hay vigente, se consiguen, pero más fácil todavía es conseguir placas de video para jugar, las mismas que cualquiera de nosotros puede adquirir.
Para lograr la máxima eficiencia y el coste más barato desarmaron el problema en partes, literalmente.
A diferencia del resto de los modelos como GPT-4 o Claude 3.5 o Llama, DeepSeek tiene un formato diferente para los problemas.
Podemos considerar a los modelos "tradicionales" (exagerado hablar de tradición acá) como modelos monolíticos, un gran archivo con TODO el conocimiento en uno.
Esto equivale a una sola persona sabiendo de todos los temas del unvierso. En cambio DeepSeek está armado de a partes, como si fuesen diez especialistas en distintos temas.
De los 671 billones de parámetros sólo están activos 37B por instancia de pensamiento, es decir, como si le preguntaran al especialista de tal o cual tema.
Segundo, y no menos importante, pasar la precisión de FP32 a FP8, no sólo las placas comerciales son mejores en esto, es mucho más barato.
Recortar tantos ceros en un valor (los decimales que se le sacan de precisión) podrían hacer al modelo más "tonto", pero ¿Cuánto se pierde? El modelo pasa a ser un 90% igual de inteligente, se pierde muy poco, esa precisión se puede suplir con mejor razonamiento y más velocidad.
Entonces al bajar la precisión y dividir el problema en partes DeepSeek necesita sólo una fracción de memoria y GPU.
Un detalle no menor, cuando se tiene un modelo gigante el tamaño del problema a resolver evoluciona en la memoria de forma exponencial, cada token se multiplica en múltiples dimensiones. Resolver una simple pregunta va creciendo hasta agotar la memoria muy rápido.
Esto se nota cuando tenemos una conversación larga con un modelo y en un momento dado empieza a delirar.
Con este otro enfoque de DeepSeek ese crecimiento exponencial es mucho menor (lo he podido corroborar con LM Studio en modo local).
El golpe para NVidia es, en realidad, una combinación de factores. Por un lado el precio de la acción estaba muy alto, una empresa que de cada placa que vende gana el 90% del precio, obviamente está juntando el dinero en pala y todos quieren una tajada. Eso hace que la acción vuele y se cotice mucho más alto que ninguna otra.
Pero todo lo que sube debe bajar.
La aparición de DeepSeek le pone un freno a semejante expansión. No porque HOY vaya a cambiar algo, sino porque esas otras empresas como OpenAI, Meta y Anthropic van a copiar a DeepSeek para abaratar los costos y acelerar la producción.
El enfoque de menor precisión y el de subdividir la acción del modelo es una solución genial a un presupuesto bajo, pero como DeepSeek es de código libre y con papers explicando todo lo que han hecho, todas las otras empresas van a analizar y posiblemente implementar su propia versión de la idea.
Esto implica que la aceleración de ventas de GPUs de alto nivel puede frenarse bastante, no es que NVidia se va a fundir, simplemente se va a acomodar en el valor que se hace más honesto con la realidad.
En vez de 10.000 GPUs vas a necesitar la mitad o menos, en vez de estar entrenando un mega-modelo durante semanas, lo vas a poder tener en una, el costo de uso de la API baja un 95% porque el uso en tiempo real de GPU es muy inferior. El hecho de que funcione en una placa gamer le mete mucha presión a NVidia y sus precios.
Cabe destacar que Liang Wenfeng, el fundador de DeepSeek, es conocido por haber estado coleccionando GPUs A100 de NVidia por todo el mundo antes del bloqueo que estableció Joe Biden a la exportación a China de ese tipo de equipos.
Aun así, en vez de tirarle GPUs y dinero al problema, los de DeepSeek buscaron cómo resolverlo con ingenio, y lo lograron, esto va a impulsar a toda la industria en ese camino, no es que sea una revolución, es la evolución que cada año tenemos.
Lo interesante del mundo de la AI es que no hay líderes por mucho tiempo, va mutando, va cambiando, mañana sale un modelo por ahí, otro por allá, algunos mueren, otros resuelven problemas de forma genial.
PS: El gobierno Chino. Esto es interesante, DeepSeek R1 es un modelo con condicionamiento del gobierno chino, todo lo que hagan en el sitio de ellos será logueado, no es esto ningún problema, simplemente para que lo sepan ¿Lo bueno? Pueden ejecutar el modelo sin que el gobierno de ese país se entere de forma local, hay versión pequeña en LMStudio para descargar.