
DeepSeek V3 y R1: Un análisis técnico en profundidad 5w5h6j
Descripción de DeepSeek V3 y R1: Un análisis técnico en profundidad 62342f
Seguro que has escuchado ya un montón de noticias relacionadas con DeepSeek, todos los grandes medios se han hecho eco de como una empresa china ha hecho público un modelo que compite de tú a tú con OpenAI y que ha costado menos de 10 millones de euros. Si quieres conocer a fondo, en profundidad, los detalles y las claves de DeepSeek V3 y R1, quédate que te los contamos. Participan en la tertulia: Íñigo Olcoz, Carlos Larriu, Victor Goñi, Josu Gorostegui y Guillermo Barbadillo. Recuerda que puedes enviarnos dudas, comentarios y sugerencias en: https://twitter.com/TERTUL_ia Más info en: https://ironbar.github.io/tertulia_inteligencia_artificial/ 4t604q
Este contenido se genera a partir de la locución del audio por lo que puede contener errores.
Seguro que has escuchado ya un montón de noticias relacionadas con DeepSeek.
Todos los grandes medios se han hecho eco de cómo una empresa china ha hecho público un modelo que compite de tú a tú con OpenAI y que ha costado menos de 10 millones de euros.
Si quieres conocer a fondo, en profundidad, los detalles y las claves de DeepSeek V3 y R1, quédate que te los contamos.
La tertulia de la inteligencia artificial Ya falta menos para la singularidad. Bienvenidas, bienvenidos a la tertulia de la inteligencia artificial y hoy está conmigo Iñigo Olcóz, bienvenido.
Muchas gracias, un placer, como siempre.
También está con nosotros Víctor Goñi.
¿Qué tal? Buenas tardes.
Carlos Larriu, ¿qué tal? Hey, un gusto estar otra vez por aquí.
Y Josu Gorostegui.
Buenas tardes, Guillermo.
Y este que os habla, Guillermo Barbadillo. Hoy Josu nos trae un tema que ha estado muy de actualidad y que no hemos podido tratar antes en la tertulia porque estabas de vacaciones en Tailandia. La verdad que sí, se nos ha ido atrasando un poco, pero bueno.
Es que de hecho lo íbamos a haber tratado justo la semana antes de que explotara todo, porque el primer paper de DeepSeek es de finales de diciembre.
Eso es.
Aunque no explotó todo hasta finales de enero, pasó un mes.
En realidad es algo curioso porque se anunció DeepSeek V3 allá por diciembre, se anunció DeepSeek R1 allá por enero y fue una semana más tarde, hubo una semana de delay, cuando ocurrió ese crash de NVIDIA donde perdió 600.000 millones de valor en bolsa y fue el lunes negro. La mayor pérdida bursátil en la historia de la bolsa americana.
Eso fue solo en un día y fue algo que pilló en realidad por sorpresa porque fue armándose una bola, digamos un fin de semana, igual las personas que estamos más metidas en ese momento ya habíamos leído el paper y habíamos visto el interés de eso, pero en un fin de semana se montó en pánico todo el mundo y el lunes cayó todo.
Y nos amenazaste y no hemos podido hablar de ello hasta ahora.
Bueno, si sacan DeepSeek R2 tendremos que vender rápido las acciones de NVIDIA.
Es un tema interesante la verdad, pero bueno, por poner a la gente un poco en contexto, sí que es interesante ver cómo ha evolucionado todo. En el capítulo anterior hablábamos de GROK, que sí que había sido entrenado con un aproach más de fuerza bruta. Sin embargo, en este caso tenemos un laboratorio chino que ha ido con un approach completamente diferente, con recursos mínimos, teniendo en cuenta que en China no disponen de las últimas GPUs y tienen que conseguirlas por mercado negro o tienen a una generación antigua. Han conseguido entrenar dos modelos, DeepSeek V3 y DeepSeek R1, puseando un poco los límites de la optimización, que es un poco lo que me veremos.
Un matillo, no es tanto una generación antigua, sino la generación actual pero capada. No sé cómo están las provisiones ahora porque van evolucionando, pero por ejemplo con las H100 a ellos les vendían H800, que creo que era la misma tarjeta con menos velocidad para conexión con otras gráficas. Entonces al final en el clúster la comunicación iba a ser más lenta entre GPUs, pero la potencia yo creo que era la misma y creo recordar que quizás tenían un poco más de memoria, pero eso no estoy seguro. Pero vamos, no compiten en igualdad de condiciones que las empresas americanas, eso está claro. Pero hoy no existe ya un modelo más novedoso que la H100.
Sí, yo creo que ahora cuál es la última, la V100, puede ser. Es la A100, ¿no? No, la A100 es más antigua que la H100 y yo creo que la actual es la V100 y la V200 creo que va a salir, no estoy seguro. La 5090. Bueno, un poco por poner en el contexto general sí que es cierto que todo esto que estamos hablando siempre de entrenamientos, de OpenAI, sí que requería cifras astronómicas en entrenamiento. Es decir, podemos comentar que es algo trivial entrenar un modelo de AI y que sólo requiere inversión económica, pero no estamos hablando de una inversión económica de un millón de dólares. Estamos hablando de una inversión económica de un millón de dólares.
Comentarios de DeepSeek V3 y R1: Un análisis técnico en profundidad 3n5d5m