来自DeepSeek的新聊天机器人对AI行业产生了重大影响,并承诺对任何问题都有令人惊讶的答案。这种大胆进入市场的进入甚至导致了NVIDIA最大的股票价格下跌之一,这表明DeepSeek的影响力不断增长。
图片:ensigame.com
DeepSeek模型的区别是其创新的建筑和培训方法,其中包括:
多语预测(MTP):此技术允许模型通过分析不同的句子段一次预测多个单词,从而提高了准确性和效率。
专家(MOE)的混合物:利用256个神经网络,每个令牌激活了8个,此方法可以加快AI训练并提高性能。
多头潜在注意力(MLA):这种机制着重于关键句子部分,反复提取关键细节,以确保不会错过重要的细微差别。
DeepSeek是一家著名的中国初创公司,声称已经开发了其竞争性的AI模型DeepSeek V3,仅使用2048个图形处理器,成本最小为600万美元。
图片:ensigame.com
然而,半分析的更深入的外观表明,DeepSeek运营着庞大的计算基础设施,利用大约50,000个Nvidia Hopper GPU,包括H800,H100和H20等各种模型。这些资源分布在多个数据中心,不仅用于AI培训,还用于研究和财务建模。该公司对服务器的总投资约为16亿美元,运营成本约为9.44亿美元。
DeepSeek是中国对冲基金高飞行员的子公司,该基金在2023年被建立为以AI为中心的单独的部门。与许多依靠云计算的初创公司不同,DeepSeek拥有其数据中心,从而完全控制了AI模型优化并实现快速创新。该公司保持自筹资金,提高其敏捷性和决策速度。
图片:ensigame.com
此外,DeepSeek吸引了领先的中国大学的顶尖人才,每年提供超过130万美元的薪水,尽管它不雇用外国专家。
尽管DeepSeek声称培训DeepSeek V3仅需600万美元,但该数字仅在培训期间说明了GPU的使用情况,并且不包括研究,改进,数据处理或基础架构成本。自开始以来,DeepSeek已在AI开发方面投资了超过5亿美元,利用其紧凑的结构来迅速实施创新。
图片:ensigame.com
DeepSeek的案子表明,一家资金充足的独立AI公司可以挑战行业领导者。但是,专家强调,该公司的成功源于大量投资,技术突破和强大的团队,而不是为AI开发的“革命性预算”。然而,DeepSeek的成本仍然低于其竞争对手的成本,而培训的成本为500万美元,而Chatgpt4o的1亿美元。