Il nuovo chatbot di DeepSeek ha avuto un impatto significativo nel settore dell'intelligenza artificiale, presentandosi una promessa di risposte sorprendenti a qualsiasi domanda. Questa audace entrata nel mercato ha persino contribuito a uno dei maggiori calo dei prezzi delle azioni di Nvidia, segnalando la crescente influenza di Deepseek.
Immagine: Ensigame.com
Ciò che distingue il modello di DeepSeek è la sua architettura innovativa e metodi di formazione, che includono:
Multi-Token Prediction (MTP): questa tecnica consente al modello di prevedere più parole contemporaneamente analizzando diversi segmenti di frasi, migliorando sia l'accuratezza che l'efficienza.
Miscela di esperti (MOE): utilizzando 256 reti neurali, con otto attivate per token, questo approccio accelera l'addestramento dell'intelligenza artificiale e aumenta le prestazioni.
Attenzione latente multi-testa (MLA): questo meccanismo si concentra su parti di frasi critiche, estraggendo ripetutamente dettagli chiave per garantire che non vengano mancate sfumature importanti.
DeepSeek, un'importante startup cinese, afferma di aver sviluppato il suo modello AI competitivo, Deepseek V3, ad un costo minimo di $ 6 milioni, utilizzando solo 2048 processori grafici.
Immagine: Ensigame.com
Tuttavia, uno sguardo più profondo per seminalisi rivela che DeepSeek gestisce una vasta infrastruttura computazionale, utilizzando circa 50.000 GPU della tramoggia Nvidia, tra cui vari modelli come H800, H100 e H20. Queste risorse sono distribuite su più data center, utilizzati non solo per la formazione AI ma anche per la ricerca e la modellazione finanziaria. L'investimento totale della società nei server è di circa $ 1,6 miliardi, con costi operativi di circa $ 944 milioni.
DeepSeek è una consociata dell'Hedge Fund cinese High-Flyer, istituita come una divisione separata focalizzata sull'intelligenza artificiale nel 2023. A differenza di molte startup che si basano sul cloud computing, Deepseek possiede i suoi data center, fornendo il pieno controllo sull'ottimizzazione del modello AI e abilitando una rapida innovazione. L'azienda rimane autofinanziata, migliorando la sua velocità di agilità e processo decisionale.
Immagine: Ensigame.com
Inoltre, DeepSeek attira i migliori talenti dalle principali università cinesi, offrendo stipendi superiori a $ 1,3 milioni all'anno, anche se non assume specialisti stranieri.
Nonostante l'affermazione di DeepSeek di addestrare Deepseek V3 per soli $ 6 milioni, questa cifra rappresenta solo l'utilizzo della GPU durante il pre-allenamento e non include la ricerca, il perfezionamento del modello, l'elaborazione dei dati o i costi di infrastruttura. Fin dall'inizio, Deepseek ha investito oltre $ 500 milioni in sviluppo dell'IA, sfruttando la sua struttura compatta per implementare rapidamente le innovazioni.
Immagine: Ensigame.com
Il caso di Deepseek illustra che un'azienda di intelligenza artificiale indipendente ben finanziata può sfidare i leader del settore. Tuttavia, gli esperti evidenziano che il successo dell'azienda deriva da investimenti sostanziali, scoperte tecniche e un team forte, piuttosto che da un "budget rivoluzionario" per lo sviluppo dell'intelligenza artificiale. Tuttavia, i costi di Deepseek sono ancora inferiori a quelli dei suoi concorrenti, con la formazione di R1 che costa $ 5 milioni rispetto ai $ 100 milioni di Chatgpt4o.