แชทบ็อตใหม่จาก Deepseek ส่งผลกระทบอย่างมีนัยสำคัญในอุตสาหกรรม AI แนะนำตัวเองด้วยคำสัญญาของคำตอบที่น่าประหลาดใจสำหรับคำถามใด ๆ การเข้าสู่ตลาดที่กล้าหาญนี้ยังมีส่วนทำให้ราคาหุ้นที่ใหญ่ที่สุดของ Nvidia ลดลงส่งสัญญาณอิทธิพลที่เพิ่มขึ้นของ Deepseek
รูปภาพ: Ensigame.com
สิ่งที่แยกความแตกต่างของแบบจำลองของ Deepseek คือสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรมซึ่งรวมถึง:
Multi-Token Prediction (MTP): เทคนิคนี้ช่วยให้แบบจำลองสามารถทำนายได้หลายคำพร้อมกันโดยการวิเคราะห์ส่วนประโยคที่แตกต่างกันเพิ่มความแม่นยำและประสิทธิภาพ
การผสมผสานของผู้เชี่ยวชาญ (MOE): การใช้เครือข่ายประสาท 256 แห่งโดยมีแปดเปิดใช้งานต่อโทเค็นวิธีการนี้เพิ่มความเร็วในการฝึกอบรม AI และเพิ่มประสิทธิภาพ
ความสนใจแฝงหลายหัว (MLA): กลไกนี้มุ่งเน้นไปที่ชิ้นส่วนประโยคที่สำคัญการสกัดรายละเอียดสำคัญซ้ำ ๆ เพื่อให้แน่ใจว่าไม่พลาดความแตกต่างที่สำคัญ
Deepseek การเริ่มต้นของจีนที่โดดเด่นอ้างว่าได้พัฒนาโมเดล AI ที่แข่งขันได้ Deepseek V3 ในราคาที่น้อยที่สุด 6 ล้านเหรียญสหรัฐโดยใช้โปรเซสเซอร์กราฟิกเพียง 2048
รูปภาพ: Ensigame.com
อย่างไรก็ตามรูปลักษณ์ที่ลึกซึ้งยิ่งขึ้นโดย semianalysis เผยให้เห็นว่า Deepseek ดำเนินการโครงสร้างพื้นฐานการคำนวณมากมายโดยใช้ GPU Nvidia Hopper ประมาณ 50,000 Nvidia รวมถึงรุ่นต่าง ๆ เช่น H800, H100 และ H20 ทรัพยากรเหล่านี้กระจายไปทั่วศูนย์ข้อมูลหลายแห่งไม่เพียง แต่ใช้สำหรับการฝึกอบรม AI แต่ยังรวมถึงการวิจัยและการสร้างแบบจำลองทางการเงิน การลงทุนทั้งหมดของ บริษัท ในเซิร์ฟเวอร์อยู่ที่ประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานประมาณ 944 ล้านดอลลาร์
Deepseek เป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนที่มีการบินสูงซึ่งก่อตั้งขึ้นเป็นแผนก AI ที่เน้นการแยกต่างหากในปี 2566 ซึ่งแตกต่างจาก บริษัท สตาร์ทอัพหลายแห่งที่พึ่งพาคลาวด์คอมพิวติ้ง Deepseek เป็นเจ้าของศูนย์ข้อมูลให้การควบคุมแบบจำลอง AI อย่างเต็มที่และทำให้นวัตกรรมอย่างรวดเร็ว บริษัท ยังคงได้รับการสนับสนุนตนเองเพิ่มความคล่องตัวและความเร็วในการตัดสินใจ
รูปภาพ: Ensigame.com
นอกจากนี้ Deepseek ยังดึงดูดความสามารถระดับสูงจากมหาวิทยาลัยชั้นนำของจีนโดยเสนอเงินเดือนเกิน $ 1.3 ล้านต่อปีแม้ว่าจะไม่ได้จ้างผู้เชี่ยวชาญต่างประเทศ
แม้จะมีการเรียกร้องการฝึกอบรม Deepseek V3 เพียง $ 6 ล้าน แต่ตัวเลขนี้มีเพียงบัญชีสำหรับการใช้งาน GPU ในระหว่างการฝึกอบรมก่อนและไม่รวมการวิจัยการปรับแต่งแบบจำลองการประมวลผลข้อมูลหรือค่าใช้จ่ายโครงสร้างพื้นฐาน ตั้งแต่เริ่มต้น Deepseek ได้ลงทุนกว่า 500 ล้านดอลลาร์ในการพัฒนา AI ซึ่งใช้ประโยชน์จากโครงสร้างขนาดกะทัดรัดเพื่อใช้นวัตกรรมอย่างรวดเร็ว
รูปภาพ: Ensigame.com
กรณีของ Deepseek แสดงให้เห็นว่า บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีสามารถท้าทายผู้นำอุตสาหกรรม อย่างไรก็ตามผู้เชี่ยวชาญเน้นว่าความสำเร็จของ บริษัท เกิดจากการลงทุนที่สำคัญการพัฒนาทางเทคนิคและทีมที่แข็งแกร่งแทนที่จะเป็น "งบประมาณปฏิวัติ" สำหรับการพัฒนา AI แต่ค่าใช้จ่ายของ Deepseek ยังคงต่ำกว่าคู่แข่งโดยมีการฝึกอบรม R1 ราคา 5 ล้านดอลลาร์เมื่อเทียบกับ CHATGPT4O ของ $ 100 ล้าน