Deepseekの新しいチャットボットは、AI業界に大きな影響を与え、質問に対する驚くべき答えの約束を紹介しています。市場へのこの大胆なエントリは、Nvidiaの最大の株価下落の1つにさえ貢献しており、Deepseekの影響力の高まりを示しています。
画像:Ensigame.com
Deepseekのモデルを区別するのは、次のことを含む革新的なアーキテクチャとトレーニング方法です。
マルチトークン予測(MTP):この手法により、モデルは異なる文セグメントを分析し、精度と効率の両方を向上させることにより、複数の単語を一度に予測できます。
専門家(MOE)の混合:256のニューラルネットワークを利用して、トークンごとに8つの活性化を行うと、このアプローチはAIトレーニングを高速化し、パフォーマンスを向上させます。
マルチヘッド潜在的注意(MLA):このメカニズムは、重要な文章の部分に焦点を当てており、重要なニュアンスが見逃されないように重要な詳細を繰り返し抽出します。
中国の著名な新興企業であるDeepseekは、わずか2048グラフィックスプロセッサを使用して、競争力のあるAIモデルであるDeepseek V3を最小限の600万ドルで開発したと主張しています。
画像:Ensigame.com
ただし、Semianalysisによるより深い外観は、DeepSeekがH800、H100、H20などのさまざまなモデルを含む約50,000のNvidia Hopper GPUを利用して、膨大な計算インフラストラクチャを運営していることを明らかにしています。これらのリソースは、AIトレーニングだけでなく、研究と財務モデリングにも使用される複数のデータセンターに広がっています。同社のサーバーへの総投資は約16億ドルで、運用コストは約9億4,400万ドルです。
Deepseekは、2023年に別のAI中心の部門として設立された中国のヘッジファンド高飛行者の子会社です。クラウドコンピューティングに依存する多くのスタートアップとは異なり、DeepSeekはデータセンターを所有し、AIモデルの最適化を完全に制御し、迅速なイノベーションを可能にします。同社は自己資金のままであり、その敏ility性と意思決定速度を向上させています。
画像:Ensigame.com
さらに、Deepseekは、中国の主要な大学のトップの才能を引き付け、外国の専門家を雇うことはありませんが、年間130万ドルを超える給与を提供しています。
DeepSeekのDeepSeek V3のわずか600万ドルでのトレーニングという主張にもかかわらず、この数字はトレーニング前のGPU使用を占めるだけであり、研究、モデルの洗練、データ処理、またはインフラストラクチャコストは含まれていません。開始以来、DeepSeekはAI開発に5億ドル以上を投資し、コンパクト構造を活用してイノベーションを迅速に実装しています。
画像:Ensigame.com
Deepseekのケースは、資金提供された独立したAI企業が業界のリーダーに挑戦できることを示しています。ただし、専門家は、同社の成功は、AI開発の「革新的な予算」ではなく、実質的な投資、技術的なブレークスルー、および強力なチームに起因することを強調しています。しかし、Deepseekのコストは競合他社のコストよりも低く、R1のトレーニングはChatGPT4Oの1億ドルと比較して500万ドルの費用がかかります。