El modelo de IA sorprendentemente rentable de Deepseek desafía a los gigantes de la industria. Si bien inicialmente reclama solo un costo de capacitación de $ 6 millones para su poderoso modelo de Deepseek V3, un aspecto más cercano revela una inversión mucho más sustancial.
El modelo V3 de Deepseek cuenta con tecnologías innovadoras: Predicción de token múltiple (MTP) , prediciendo múltiples palabras simultáneamente; Mezcla de expertos (MOE) , utilizando 256 redes neuronales para un procesamiento mejorado; y Atención latente de múltiples cabezas (MLA) , centrándose en elementos clave de oraciones para mejorar la precisión.
Imagen: Ensigame.com
Sin embargo, el semianálisis descubrió la infraestructura sustancial de Deepseek: aproximadamente 50,000 GPU de tolva nvidia, incluidas las unidades H800, H100 y H20, se extienden a través de múltiples centros de datos. Esto representa una inversión de servidor total de aproximadamente $ 1.6 mil millones y costos operativos que se acercan a $ 944 millones.
Imagen: Ensigame.com
Deepseek, una subsidiaria de High-Flyer, un fondo de cobertura chino, posee sus centros de datos, fomentando el control y la rápida innovación. Su naturaleza autofinanciada contribuye a la agilidad y la rápida toma de decisiones. La compañía atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de universidades chinas.
Imagen: Ensigame.com
La cifra inicial de $ 6 millones solo cubre el uso de la GPU previa al entrenamiento, omitiendo la investigación, el refinamiento, el procesamiento de datos e infraestructura. La inversión real de desarrollo de IA de Deepseek supera los $ 500 millones. A pesar de esto, su estructura magra permite una innovación eficiente, a diferencia de los competidores más grandes y burocráticos.
Imagen: Ensigame.com
Si bien el éxito de Deepseek proviene de una inversión sustancial, avances tecnológicos y un equipo calificado, la narrativa "económica" es engañosa. Sin embargo, sus costos siguen siendo significativamente más bajos que los competidores; Por ejemplo, el modelo R1 de Deepseek costó $ 5 millones, en comparación con los $ 100 millones de CHATGPT4. El ejemplo de Deepseek muestra una compañía de IA independiente bien financiada que compite con éxito con los líderes establecidos, aunque los reclamos de costos iniciales requieren una interpretación cuidadosa.