Le nouveau chatbot de Deepseek a eu un impact significatif dans l'industrie de l'IA, se présentant avec une promesse de réponses surprenantes à toute question. Cette entrée audacieuse sur le marché a même contribué à l'une des plus grandes baisses de cours des actions de Nvidia, signalant l'influence croissante de Deepseek.
Image: esigame.com
Ce qui distingue le modèle de Deepseek, c'est son architecture innovante et ses méthodes de formation, qui comprennent:
Prédiction multi-token (MTP): Cette technique permet au modèle de prédire plusieurs mots à la fois en analysant différents segments de phrases, en améliorant à la fois la précision et l'efficacité.
Mélange d'experts (MOE): en utilisant 256 réseaux de neurones, avec huit activés par jeton, cette approche accélère la formation sur l'IA et augmente les performances.
Attention latente multi-tête (MLA): ce mécanisme se concentre sur les parties de la phrase critique, extrait à plusieurs reprises les détails clés pour garantir que les nuances importantes ne sont pas manquées.
Deepseek, une start-up chinoise de premier plan, prétend avoir développé son modèle de l'IA compétitif, Deepseek V3, à un coût minimal de 6 millions de dollars, en utilisant seulement 2048 processeurs graphiques.
Image: esigame.com
Cependant, un look plus profond par semianalyse révèle que Deepseek exploite une vaste infrastructure de calcul, en utilisant environ 50 000 GPU Nvidia Hopper, y compris divers modèles comme H800, H100 et H20. Ces ressources sont réparties sur plusieurs centres de données, utilisés non seulement pour la formation de l'IA, mais aussi pour la recherche et la modélisation financière. L'investissement total de la société dans les serveurs s'élève à environ 1,6 milliard de dollars, avec des coûts opérationnels d'environ 944 millions de dollars.
Deepseek est une filiale du High Flyer de fonds spéculatifs chinois, établie en tant que division distincte axée sur l'IA en 2023. Contrairement à de nombreuses startups qui s'appuient sur le cloud computing, Deepseek possède ses centres de données, fournissant un contrôle total sur l'optimisation du modèle IA et permettant une innovation rapide. L'entreprise reste autofinancée, améliorant son agilité et sa vitesse de prise de décision.
Image: esigame.com
De plus, Deepseek attire les meilleurs talents des grandes universités chinoises, offrant des salaires supérieurs à 1,3 million de dollars par an, bien qu'il n'engage pas des spécialistes étrangers.
Malgré la revendication de Deepseek de formation de Deepseek V3 pour seulement 6 millions de dollars, ce chiffre ne représente que l'utilisation du GPU pendant la pré-formation et n'inclut pas la recherche, le raffinement du modèle, le traitement des données ou les coûts d'infrastructure. Depuis son début, Deepseek a investi plus de 500 millions de dollars dans le développement de l'IA, tirant parti de sa structure compacte pour mettre rapidement en œuvre des innovations.
Image: esigame.com
Le cas de Deepseek illustre qu'une entreprise d'IA indépendante bien financée peut défier les leaders de l'industrie. Cependant, les experts soulignent que le succès de l'entreprise découle d'investissements substantiels, de percées techniques et d'une équipe solide, plutôt que d'un "budget révolutionnaire" pour le développement de l'IA. Pourtant, les coûts de Deepseek sont toujours inférieurs à ceux de ses concurrents, la formation de R1 coûtant 5 millions de dollars par rapport aux 100 millions de dollars de ChatGPT4O.