O modelo surpreendentemente econômico de Deepseek desafia os gigantes da indústria. Ao reivindicar inicialmente um mero custo de treinamento de US $ 6 milhões para seu poderoso modelo Deepseek V3, um visual mais próximo revela um investimento muito mais substancial.
O modelo V3 da Deepseek possui tecnologias inovadoras: Previsão de vários toques (MTP) , prevendo várias palavras simultaneamente; Mistura de especialistas (MOE) , utilizando 256 redes neurais para processamento aprimorado; e Atenção latente de várias cabeças (MLA) , concentrando-se nos principais elementos da frase para melhorar a precisão.
Imagem: Ensigame.com
No entanto, a semiânica descobriu a infraestrutura substancial da Deepseek: aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo unidades H800, H100 e H20, espalhadas por vários data centers. Isso representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão e os custos operacionais que se aproximam de US $ 944 milhões.
Imagem: Ensigame.com
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, promovendo controle e inovação rápida. Sua natureza autofinanciada contribui para a agilidade e a rápida tomada de decisão. A empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
Imagem: Ensigame.com
O número inicial de US $ 6 milhões abrange apenas o uso de GPU pré-treinamento, omitindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento real de desenvolvimento de IA da Deepseek ultrapassa US $ 500 milhões. Apesar disso, sua estrutura enxuta permite inovação eficiente, diferentemente dos concorrentes maiores e mais burocráticos.
Imagem: Ensigame.com
Enquanto o sucesso de Deepseek decorre de investimentos substanciais, avanços tecnológicos e uma equipe qualificada, a narrativa "orçamentária" é enganosa. No entanto, seus custos permanecem significativamente menores que os concorrentes; Por exemplo, o modelo R1 da Deepseek custou US $ 5 milhões, em comparação com os US $ 100 milhões do ChatGPT4. O exemplo da Deepseek mostra uma empresa independente de IA bem financiada competindo com sucesso com líderes estabelecidos, embora as reivindicações de custo inicial exijam uma interpretação cuidadosa.