El nuevo chatbot de Deepseek ha tenido un impacto significativo en la industria de la IA, presentándose con la promesa de respuestas sorprendentes a cualquier pregunta. Esta audaz entrada en el mercado incluso ha contribuido a una de las mayores caídas de precios de las acciones de Nvidia, lo que indica la creciente influencia de Deepseek.
Imagen: ensigame.com
Lo que distingue el modelo de Deepseek son sus innovadores métodos de arquitectura y capacitación, que incluyen:
Predicción de múltiples token (MTP): esta técnica permite que el modelo predice múltiples palabras a la vez analizando diferentes segmentos de oraciones, mejorando tanto la precisión como la eficiencia.
Mezcla de expertos (MOE): utilizando 256 redes neuronales, con ocho activados por token, este enfoque acelera el entrenamiento de IA y aumenta el rendimiento.
Atención latente de múltiples cabezas (MLA): este mecanismo se centra en las partes críticas de las oraciones, extrayendo repetidamente detalles clave para garantizar que no se pierdan matices importantes.
Deepseek, una prominente startup china, afirma haber desarrollado su modelo competitivo de IA, Deepseek V3, a un costo mínimo de $ 6 millones, utilizando solo 2048 procesadores gráficos.
Imagen: ensigame.com
Sin embargo, una mirada más profunda por el semianálisis revela que Deepseek opera una vasta infraestructura computacional, utilizando alrededor de 50,000 GPU de tolva nvidia, incluidos varios modelos como H800, H100 y H20. Estos recursos se distribuyen en múltiples centros de datos, utilizados no solo para la capacitación de IA sino también para la investigación y el modelado financiero. La inversión total de la compañía en servidores es de aproximadamente $ 1.6 mil millones, con costos operativos de alrededor de $ 944 millones.
Deepseek es una subsidiaria del Fondo de cobertura chino High-Flyer, establecida como una división separada centrada en la IA en 2023. A diferencia de muchas nuevas empresas que dependen de la computación en la nube, Deepseek posee sus centros de datos, proporcionando un control total sobre la optimización del modelo de IA y permitiendo una rápida innovación. La compañía sigue siendo autofinanciada, mejorando su agilidad y velocidad de toma de decisiones.
Imagen: ensigame.com
Además, Deepseek atrae a los principales talentos de las principales universidades chinas, que ofrecen salarios superiores a $ 1.3 millones anuales, aunque no contrata especialistas extranjeros.
A pesar del reclamo de Deepseek de capacitar a Deepseek V3 por solo $ 6 millones, esta cifra solo representa el uso de la GPU durante la capacitación previa y no incluye investigación, refinamiento del modelo, procesamiento de datos o costos de infraestructura. Desde su inicio, Deepseek ha invertido más de $ 500 millones en desarrollo de IA, aprovechando su estructura compacta para implementar rápidamente innovaciones.
Imagen: ensigame.com
El caso de Deepseek ilustra que una compañía de IA independiente bien financiada puede desafiar a los líderes de la industria. Sin embargo, los expertos destacan que el éxito de la compañía proviene de inversiones sustanciales, avances técnicos y un equipo fuerte, en lugar de un "presupuesto revolucionario" para el desarrollo de la IA. Sin embargo, los costos de Deepseek siguen siendo más bajos que los de sus competidores, con la capacitación de R1 que cuesta $ 5 millones en comparación con los $ 100 millones de ChatPPT4O.