Chatbot baru dari DeepSeek telah memberi impak yang signifikan dalam industri AI, memperkenalkan dirinya dengan janji jawapan yang mengejutkan kepada sebarang pertanyaan. Kemasukan berani ke pasaran ini telah menyumbang kepada salah satu penurunan harga saham terbesar Nvidia, memberi isyarat kepada pengaruh DeepSeek yang semakin meningkat.
Imej: ensigame.com
Apa yang membezakan model DeepSeek adalah kaedah seni bina dan latihan yang inovatif, termasuk:
Ramalan Multi-Token (MTP): Teknik ini membolehkan model meramalkan beberapa perkataan sekaligus dengan menganalisis segmen ayat yang berbeza, meningkatkan ketepatan dan kecekapan.
Campuran Pakar (MOE): Menggunakan 256 rangkaian saraf, dengan lapan di aktifkan setiap token, pendekatan ini mempercepat latihan AI dan meningkatkan prestasi.
Perhatian Laten Multi-Head (MLA): Mekanisme ini memberi tumpuan kepada bahagian-bahagian kalimat kritikal, berulang kali mengeluarkan butiran utama untuk memastikan nuansa penting tidak terlepas.
DeepSeek, permulaan Cina yang terkenal, mendakwa telah membangunkan model AI yang kompetitif, DeepSeek v3, dengan kos minimum $ 6 juta, menggunakan hanya 2048 pemproses grafik.
Imej: ensigame.com
Walau bagaimanapun, pandangan yang lebih mendalam oleh semianalisis mendedahkan bahawa DeepSeek mengendalikan infrastruktur pengiraan yang luas, menggunakan sekitar 50,000 GPU NVIDIA Hopper, termasuk pelbagai model seperti H800, H100, dan H20. Sumber -sumber ini tersebar di pelbagai pusat data, yang digunakan bukan sahaja untuk latihan AI tetapi juga untuk penyelidikan dan pemodelan kewangan. Jumlah pelaburan syarikat di pelayan berjumlah kira -kira $ 1.6 bilion, dengan kos operasi sekitar $ 944 juta.
DeepSeek adalah anak syarikat dana lindung nilai Cina yang tinggi, yang ditubuhkan sebagai pembahagian AI yang berasingan pada tahun 2023. Tidak seperti banyak pemula yang bergantung kepada pengkomputeran awan, DeepSeek memiliki pusat datanya, memberikan kawalan penuh ke atas pengoptimuman model AI dan membolehkan inovasi pesat. Syarikat itu tetap dibiayai sendiri, meningkatkan kelajuan ketangkasan dan keputusannya.
Imej: ensigame.com
Di samping itu, DeepSeek menarik bakat teratas dari universiti -universiti China yang terkemuka, menawarkan gaji melebihi $ 1.3 juta setiap tahun, walaupun ia tidak menyewa pakar asing.
Walaupun tuntutan DeepSeek untuk latihan DeepSeek V3 hanya untuk $ 6 juta, angka ini hanya menyumbang penggunaan GPU semasa latihan pra-latihan dan tidak termasuk penyelidikan, penghalusan model, pemprosesan data, atau kos infrastruktur. Sejak permulaannya, DeepSeek telah melabur lebih daripada $ 500 juta dalam pembangunan AI, memanfaatkan struktur padatnya untuk melaksanakan inovasi dengan cepat.
Imej: ensigame.com
Kes DeepSeek menggambarkan bahawa syarikat AI yang dibiayai dengan baik dan bebas boleh mencabar pemimpin industri. Walau bagaimanapun, pakar -pakar menekankan bahawa kejayaan syarikat itu berpunca daripada pelaburan yang besar, kejayaan teknikal, dan pasukan yang kuat, bukannya "bajet revolusioner" untuk pembangunan AI. Namun, kos DeepSeek masih lebih rendah daripada pesaingnya, dengan latihan R1 yang berharga $ 5 juta berbanding $ 100 juta ChatGPT4O.