O novo chatbot da Deepseek causou um impacto significativo na indústria de IA, apresentando -se com a promessa de respostas surpreendentes a qualquer pergunta. Essa entrada ousada no mercado até contribuiu para uma das maiores quedas de preços das ações da NVIDIA, sinalizando a crescente influência de Deepseek.
Imagem: Ensigame.com
O que distingue o modelo de Deepseek é seus métodos inovadores de arquitetura e treinamento, que incluem:
Previsão com vários toques (MTP): Essa técnica permite que o modelo preveja várias palavras de uma só vez, analisando diferentes segmentos de sentença, aumentando a precisão e a eficiência.
Mistura de especialistas (MOE): Utilizando 256 redes neurais, com oito ativados por token, essa abordagem acelera o treinamento de IA e aumenta o desempenho.
Atenção latente de várias cabeças (MLA): Esse mecanismo se concentra nas peças críticas da frase, extraindo repetidamente detalhes importantes para garantir que nuances importantes não sejam perdidas.
A Deepseek, uma proeminente startup chinesa, afirma ter desenvolvido seu modelo competitivo de IA, Deepseek V3, a um custo mínimo de US $ 6 milhões, usando apenas 2048 processadores gráficos.
Imagem: Ensigame.com
No entanto, uma aparência mais profunda da semiânica revela que o DeepSeek opera uma vasta infraestrutura computacional, utilizando cerca de 50.000 GPUs NVIDIA Hopper, incluindo vários modelos como H800, H100 e H20. Esses recursos estão espalhados por vários data centers, usados não apenas para treinamento de IA, mas também para pesquisa e modelagem financeira. O investimento total da empresa em servidores é de cerca de US $ 1,6 bilhão, com custos operacionais em torno de US $ 944 milhões.
A Deepseek é uma subsidiária do fundo de hedge chinês High-Flyer, estabelecido como uma divisão separada de IA em 2023. Ao contrário de muitas startups que dependem da computação em nuvem, a DeepSeek possui seus data centers, fornecendo controle total sobre a otimização do modelo de IA e possibilitando inovação rápida. A empresa permanece autofinanciada, aumentando sua agilidade e velocidade de tomada de decisão.
Imagem: Ensigame.com
Além disso, a Deepseek atrai os principais talentos das principais universidades chinesas, oferecendo salários que excedam US $ 1,3 milhão anualmente, embora não contrate especialistas estrangeiros.
Apesar da reivindicação da Deepseek de treinar Deepseek V3 por apenas US $ 6 milhões, esse número é responsável apenas pelo uso da GPU durante o pré-treinamento e não inclui pesquisas, refinamento de modelos, processamento de dados ou custos de infraestrutura. Desde o seu início, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA, alavancando sua estrutura compacta para implementar rapidamente inovações.
Imagem: Ensigame.com
O caso da Deepseek ilustra que uma empresa de IA independente e bem financiada pode desafiar os líderes do setor. No entanto, especialistas destacam que o sucesso da empresa decorre de investimentos substanciais, avanços técnicos e uma equipe forte, em vez de um "orçamento revolucionário" para o desenvolvimento da IA. No entanto, os custos da Deepseek ainda são inferiores aos de seus concorrentes, com o treinamento de R1 custando US $ 5 milhões em comparação com os US $ 100 milhões da ChatGPT4O.