De nieuwe chatbot van Deepseek heeft een aanzienlijke impact gehad in de AI -industrie en introduceert zichzelf met een belofte van verrassende antwoorden op elke vraag. Deze gedurfde toegang tot de markt heeft zelfs bijgedragen aan een van de grootste aandelenkoersdaling van Nvidia, wat de groeiende invloed van Deepseek aangeeft.
Afbeelding: ensigame.com
Wat het model van DeepSeek onderscheidt, zijn de innovatieve architectuur- en trainingsmethoden, waaronder:
Multi-token voorspelling (MTP): deze techniek stelt het model in staat om meerdere woorden tegelijk te voorspellen door verschillende zinsegmenten te analyseren, waardoor zowel nauwkeurigheid als efficiëntie worden verbeterd.
Mix van experts (MOE): gebruik van 256 neurale netwerken, met acht geactiveerd per token, deze aanpak versnelt AI -training en stimuleert de prestaties.
Multi-head latente aandacht (MLA): dit mechanisme richt zich op kritieke zinsdelen en extraheren herhaaldelijk belangrijke details om ervoor te zorgen dat belangrijke nuances niet worden gemist.
Deepseek, een prominente Chinese startup, beweert zijn competitieve AI -model, Deepseek V3, te hebben ontwikkeld tegen een minimale kostprijs van $ 6 miljoen, met slechts 2048 grafische processors.
Afbeelding: ensigame.com
Uit een diepere uitstraling van Semianalysis blijkt echter dat Deepseek een enorme computationele infrastructuur heeft, met behulp van ongeveer 50.000 NVIDIA -hopper GPU's, waaronder verschillende modellen zoals H800, H100 en H20. Deze bronnen zijn verspreid over meerdere datacenters, niet alleen gebruikt voor AI -training, maar ook voor onderzoek en financiële modellering. De totale investering van het bedrijf in servers bedraagt ongeveer $ 1,6 miljard, met operationele kosten van ongeveer $ 944 miljoen.
Deepseek is een dochteronderneming van het Chinese hedgefonds hoogvlieger, opgericht als een afzonderlijke AI-gerichte divisie in 2023. In tegenstelling tot veel startups die afhankelijk zijn van cloud computing, bezit Deepseek zijn datacenters, die volledige controle over AI-modeloptimalisatie biedt en snelle innovatie mogelijk maakt. Het bedrijf blijft zelf gefinancierd en verbetert zijn behendigheid en besluitvormingssnelheid.
Afbeelding: ensigame.com
Bovendien trekt Deepseek toptalent van toonaangevende Chinese universiteiten en biedt salarissen van meer dan $ 1,3 miljoen per jaar, hoewel het geen buitenlandse specialisten inhuurt.
Ondanks de claim van Deepseek over het trainen van Deepseek V3 voor slechts $ 6 miljoen, is dit cijfer alleen verantwoordelijk voor GPU-gebruik tijdens pre-training en omvat geen onderzoek, modelverfijning, gegevensverwerking of infrastructuurkosten. Sinds de start heeft Deepseek meer dan $ 500 miljoen geïnvesteerd in AI -ontwikkeling, waardoor zijn compacte structuur wordt gebruikt om innovaties snel te implementeren.
Afbeelding: ensigame.com
De case van Deepseek illustreert dat een goed gefinancierd, onafhankelijk AI-bedrijf marktleiders kan uitdagen. Experts benadrukken echter dat het succes van het bedrijf voortkomt uit substantiële investeringen, technische doorbraken en een sterk team, in plaats van een "revolutionair budget" voor AI -ontwikkeling. Toch zijn de kosten van Deepseek nog steeds lager dan die van zijn concurrenten, met de training van R1 die $ 5 miljoen kost in vergelijking met de $ 100 miljoen van Chatgpt4o.