來自DeepSeek的新聊天機器人對AI行業產生了重大影響,並承諾對任何問題都有令人驚訝的答案。這種大膽進入市場的進入甚至導致了NVIDIA最大的股票價格下跌之一,這表明DeepSeek的影響力不斷增長。
圖片:ensigame.com
DeepSeek模型的區別是其創新的建築和培訓方法,其中包括:
多語預測(MTP):此技術允許模型通過分析不同的句子段一次預測多個單詞,從而提高了準確性和效率。
專家(MOE)的混合物:利用256個神經網絡,每個令牌激活了8個,此方法可以加快AI訓練並提高性能。
多頭潛在註意力(MLA):這種機制著重於關鍵句子部分,反复提取關鍵細節,以確保不會錯過重要的細微差別。
DeepSeek是一家著名的中國初創公司,聲稱已經開發了其競爭性的AI模型DeepSeek V3,僅使用2048個圖形處理器,成本最小為600萬美元。
圖片:ensigame.com
然而,半分析的更深入的外觀表明,DeepSeek運營著龐大的計算基礎設施,利用大約50,000個Nvidia Hopper GPU,包括H800,H100和H20等各種模型。這些資源分佈在多個數據中心,不僅用於AI培訓,還用於研究和財務建模。該公司對服務器的總投資約為16億美元,運營成本約為9.44億美元。
DeepSeek是中國對沖基金高飛行員的子公司,該基金在2023年被建立為以AI為中心的單獨的部門。與許多依靠雲計算的初創公司不同,DeepSeek擁有其數據中心,從而完全控制了AI模型優化並實現快速創新。該公司保持自籌資金,提高其敏捷性和決策速度。
圖片:ensigame.com
此外,DeepSeek吸引了領先的中國大學的頂尖人才,每年提供超過130萬美元的薪水,儘管它不僱用外國專家。
儘管DeepSeek聲稱培訓DeepSeek V3僅需600萬美元,但該數字僅在培訓期間說明了GPU的使用情況,並且不包括研究,改進,數據處理或基礎架構成本。自開始以來,DeepSeek已在AI開發方面投資了超過5億美元,利用其緊湊的結構來迅速實施創新。
圖片:ensigame.com
DeepSeek的案子表明,一家資金充足的獨立AI公司可以挑戰行業領導者。但是,專家強調,該公司的成功源於大量投資,技術突破和強大的團隊,而不是為AI開發的“革命性預算”。然而,DeepSeek的成本仍然低於其競爭對手的成本,而培訓的成本為500萬美元,而Chatgpt4o的1億美元。