DeepSeek의 새로운 챗봇은 AI 업계에 큰 영향을 미쳤으며, 어떤 질문 에나 놀라운 답변을 약속하면서 스스로를 소개했습니다. 이 대담한 시장 진입은 심지어 Nvidia의 가장 큰 주가 하락 중 하나에 기여하여 Deepseek의 영향력이 커지고 있습니다.
이미지 : ensigame.com
DeepSeek의 모델을 구별하는 것은 다음과 같은 혁신적인 아키텍처 및 교육 방법입니다.
MTP ( Multi-Token Prediction ) :이 기술을 통해 모델은 다른 문장 세그먼트를 분석하여 정확도와 효율성을 모두 향상시켜 여러 단어를 한 번에 예측할 수 있습니다.
전문가 (MOE)의 혼합 : 256 개의 신경망을 활용하여 토큰 당 8 개의 활성화 된이 접근법은 AI 교육 속도를 높이고 성능을 향상시킵니다.
다중 헤드 잠재주의 (MLA) :이 메커니즘은 중요한 문장 부분에 중점을 두어 중요한 뉘앙스를 놓치지 않도록 주요 세부 사항을 반복적으로 추출합니다.
저명한 중국 스타트 업인 Deepseek은 2048 개의 그래픽 프로세서를 사용하여 경쟁력있는 AI 모델 인 DeepSeek V3를 최소 6 백만 달러로 개발했다고 주장합니다.
이미지 : ensigame.com
그러나 Semianalysis의 더 깊은 모양에 따르면 DeepSeek은 H800, H100 및 H20과 같은 다양한 모델을 포함하여 약 50,000 개의 NVIDIA HOPPER GPU를 사용하여 광대 한 계산 인프라를 운영합니다. 이러한 리소스는 여러 데이터 센터에 퍼져 있으며 AI 교육뿐만 아니라 연구 및 재무 모델링에도 사용됩니다. 이 회사의 서버에 대한 총 투자는 약 16 억 달러이며 운영 비용은 약 9 억 9,400 만 달러입니다.
DeepSeek은 2023 년에 별도의 AI 중심 부서로 설립 된 중국 헤지 펀드 High-Flyer의 자회사입니다. 클라우드 컴퓨팅에 의존하는 많은 신생 기업과 달리 데이터 센터를 소유하여 AI 모델 최적화를 완전히 제어하고 빠른 혁신을 가능하게합니다. 이 회사는 자체 자금을 유지하여 민첩성과 의사 결정 속도를 향상시킵니다.
이미지 : ensigame.com
또한 Deepseek은 중국 선도 대학에서 최고의 인재를 유치하여 연봉을 연간 130 만 달러를 초과하는 급여를 제공하지만 외국 전문가를 고용하지는 않습니다.
DeepSeek의 DeepSeek V3 교육에 대한 DeepSeek V3는 6 백만 달러에 불과하지만,이 수치는 사전 훈련 중에 GPU 사용량에 대해서만 설명하며 연구, 모델 개선, 데이터 처리 또는 인프라 비용은 포함되지 않습니다. DeepSeek은 처음부터 AI 개발에 5 억 달러 이상을 투자하여 혁신을 신속하게 구현하기 위해 소형 구조를 활용했습니다.
이미지 : ensigame.com
Deepseek의 사례는 잘 자금을 지원하고 독립적 인 AI 회사가 업계 리더에게 도전 할 수 있음을 보여줍니다. 그러나 전문가들은 회사의 성공이 AI 개발을위한 "혁신적인 예산"보다는 상당한 투자, 기술 혁신 및 강력한 팀에서 비롯된 것이라고 강조합니다. 그러나 DeepSeek의 비용은 여전히 경쟁 업체의 비용보다 저렴하며 R1의 교육은 ChatGpt4o의 1 억 달러에 비해 5 백만 달러가 소요되었습니다.