Deepseek'ten yeni sohbet botu, AI endüstrisinde önemli bir etki yarattı ve kendisini herhangi bir soruya şaşırtıcı cevaplar vaat etti. Piyasaya bu cesur giriş, Nvidia'nın en büyük hisse senedi fiyat düşüşlerinden birine katkıda bulundu ve Deepseek'in artan etkisine işaret etti.
Resim: ensigame.com
Deepseek'in modelini ayırt eden şey, yenilikçi mimarisi ve eğitim yöntemleridir:
Çoklu Tahmini Tahmin (MTP): Bu teknik, modelin farklı cümle segmentlerini analiz ederek, hem doğruluğu hem de verimliliği artırarak aynı anda birden fazla kelimeyi tahmin etmesini sağlar.
Uzmanların (MOE) karışımı : 256 sinir ağını kullanan, jeton başına sekiz etkinleştirilmiş bu yaklaşım AI eğitimini hızlandırır ve performansı artırır.
Çok Baş Gizli Dikkat (MLA): Bu mekanizma, kritik cümle parçalarına odaklanır ve önemli nüansların kaçırılmamasını sağlamak için önemli ayrıntıları tekrar tekrar çıkarır.
Önemli bir Çin girişim olan Deepseek, rekabetçi AI modelini Deepseek V3'ü sadece 2048 grafik işlemcileri kullanarak minimum 6 milyon dolarlık bir maliyetle geliştirdiğini iddia ediyor.
Resim: ensigame.com
Bununla birlikte, yarı adalize daha derin bir bakış, Deepseek'in H800, H100 ve H20 gibi çeşitli modeller de dahil olmak üzere yaklaşık 50.000 NVIDIA hopper GPU kullanan geniş bir hesaplama altyapısı işlettiğini ortaya koyuyor. Bu kaynaklar, sadece AI eğitimi için değil, aynı zamanda araştırma ve finansal modelleme için de kullanılan birden fazla veri merkezine yayılmıştır. Şirketin sunuculara toplam yatırımı yaklaşık 1,6 milyar dolar ve operasyonel maliyetler yaklaşık 944 milyon dolar.
Deepseek, 2023'te ayrı bir AI odaklı bölünme olarak kurulan Çin Hedge Fonu High-Flyer'in bir yan kuruluşudur. Bulut bilişimine dayanan birçok girişimin aksine, Deepseek veri merkezlerine sahiptir, AI modeli optimizasyonu üzerinde tam kontrol sağlar ve hızlı inovasyonu sağlar. Şirket, çevikliğini ve karar verme hızını artırarak kendi kendini finanse ediyor.
Resim: ensigame.com
Buna ek olarak, Deepseek, önde gelen Çin üniversitelerinden en iyi yetenekleri çekiyor ve yabancı uzmanları işe almasa da, yıllık 1,3 milyon doları aşan maaşlar sunuyor.
Deepseek'in Deepseek V3'ü sadece 6 milyon dolarlık eğitme iddiasına rağmen, bu rakam sadece eğitim öncesi sırasında GPU kullanımını açıklar ve araştırma, model iyileştirme, veri işleme veya altyapı maliyetlerini içermez. Deepseek, başlamasından bu yana, AI gelişimine 500 milyon doların üzerinde yatırım yaptı ve yenilikleri hızla uygulamak için kompakt yapısını kullandı.
Resim: ensigame.com
Deepseek'in davası, iyi finanse edilen, bağımsız bir AI şirketinin endüstri liderlerine meydan okuyabileceğini göstermektedir. Bununla birlikte, uzmanlar, şirketin başarısının, AI gelişimi için "devrimci bir bütçe" yerine önemli yatırımlardan, teknik atılımlardan ve güçlü bir ekipten kaynaklandığını vurgulamaktadır. Yine de, Deepseek'in maliyetleri hala rakiplerinden daha düşüktür ve R1 eğitimi, ChatGpt4o'nun 100 milyon dolarına kıyasla 5 milyon dolara mal olur.