Nowy chatbot z Deepseek wywarł znaczący wpływ na branżę AI, przedstawiając się z obietnicą zaskakujących odpowiedzi na każde pytanie. To odważne wejście na rynek przyczyniło się nawet do jednego z największych spadków cen akcji NVIDIA, sygnalizując rosnący wpływ Deepeek.
Zdjęcie: engame.com
To, co rozróżnia model Deepseek, to jego innowacyjna architektura i metody szkolenia, które obejmują:
Prognozowanie wielu tokenów (MTP): Ta technika pozwala modelowi przewidzieć wiele słów jednocześnie poprzez analizę różnych segmentów zdań, zwiększając zarówno dokładność, jak i wydajność.
Mieszanka ekspertów (MOE): Wykorzystanie 256 sieci neuronowych, z ośmioma aktywowanymi na token, podejście to przyspiesza szkolenie AI i zwiększa wydajność.
Utrzymująca uwaga wielowłócona (MLA): Ten mechanizm koncentruje się na krytycznych częściach zdań, wielokrotnie wydobywając kluczowe szczegóły, aby zapewnić, że ważne niuanse nie zostaną pominięte.
Deepseek, wybitny chiński startup, twierdzi, że opracował swój konkurencyjny model AI, Deepseek V3, przy minimalnym koszcie 6 milionów dolarów, przy użyciu zaledwie 2048 procesorów graficznych.
Zdjęcie: engame.com
Jednak głębsze spojrzenie na semianaliza ujawnia, że Deepseek prowadzi ogromną infrastrukturę obliczeniową, wykorzystując około 50 000 GPU Nvidia Hopper, w tym różne modele, takie jak H800, H100 i H20. Zasoby te są rozpowszechniane na wiele centrów danych, wykorzystywane nie tylko do szkolenia AI, ale także do badań i modelowania finansowego. Całkowita inwestycja Spółki w serwerach wynosi około 1,6 miliarda dolarów, a koszty operacyjne około 944 mln USD.
Deepseek jest spółką zależną chińskiego funduszu hedgingowego High-Flyer, ustanowionego jako oddzielny dział ukierunkowany na sztuczną inteligencję w 2023 r.. W przeciwieństwie do wielu startupów, które opierają się na przetwarzaniu w chmurze, DeepSeek jest właścicielem swoich centrów danych, zapewniając pełną kontrolę nad optymalizacją modelu AI i umożliwiając szybkie innowacje. Firma pozostaje finansowana, zwiększając swoją zwinność i szybkość podejmowania decyzji.
Zdjęcie: engame.com
Ponadto Deepseek przyciąga najlepsze talenty wiodących chińskich uniwersytetów, oferując pensje przekraczające 1,3 miliona dolarów rocznie, choć nie zatrudnia zagranicznych specjalistów.
Pomimo roszczenia Deepseek o szkoleniu Deepseek V3 za jedyne 6 milionów dolarów, liczba ta uwzględnia tylko wykorzystanie GPU podczas wstępnego treningu i nie obejmuje badań, udoskonalania modelu, przetwarzania danych ani kosztów infrastruktury. Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI, wykorzystując swoją kompaktową strukturę, aby szybko wdrażać innowacje.
Zdjęcie: engame.com
Sprawa Deepseek ilustruje, że dobrze finansowana, niezależna firma AI może rzucić wyzwanie liderom branży. Jednak eksperci podkreślają, że sukces firmy wynika ze znacznych inwestycji, przełomów technicznych i silnego zespołu, a nie „rewolucyjnego budżetu” na rozwój AI. Jednak koszty Deepseek są nadal niższe niż koszty jego konkurentów, a szkolenie R1 kosztuje 5 milionów dolarów w porównaniu z 100 milionami dolarów Chatgpt4o.