A startup chinesa DeepSeek anunciou a atualização de seu modelo de linguagem de código aberto, batizado de DeepSeek-V3-0324, que incorpora melhorias no desempenho matemático, na capacidade de codificação e na geração de conteúdo em língua chinesa.
O novo modelo sucede o DeepSeek V3 e foi lançado na plataforma de desenvolvedores Hugging Face, além do próprio site da empresa.
O DeepSeek-V3-0324 possui 685 bilhões de parâmetros e utiliza a licença de software do MIT, em contraste com os 671 bilhões de parâmetros do DeepSeek V3, que opera sob licença comercial da própria empresa.
Segundo comunicado da companhia, o modelo foi otimizado com foco em desenvolvimento web front-end, raciocínio lógico e escrita em chinês.
A atualização do modelo refletiu em avanços em benchmarks de desempenho. No American Invitational Mathematics Examination (AIME), o modelo obteve uma pontuação de 59,4, superando os 39,6 pontos da versão anterior.
No LiveCodeBench, plataforma que avalia habilidades de codificação, o novo modelo registrou 49,2 pontos, um aumento de 10 em relação ao desempenho anterior.
O modelo também é a base do DeepSeek R1, voltado para tarefas de raciocínio. Lançado em janeiro, o R1 chamou a atenção por aliar desempenho elevado a um custo reduzido.
A expectativa no setor é que uma nova versão, o R2, seja anunciada em breve. Segundo reportagem da agência Reuters, o lançamento estava previsto para maio, mas pode ser antecipado.
A arquitetura do DeepSeek-V3-0324 adota o sistema “Mixture-of-Experts”, voltado para a ampliação da escala dos modelos de linguagem de forma mais eficiente em termos computacionais.
A estratégia visa melhorar o desempenho sem aumento proporcional no consumo de recursos, o que pode tornar os modelos mais acessíveis para testes e aplicações em ambientes com capacidade limitada.
Especialistas da comunidade acadêmica e do setor tecnológico comentaram o desempenho da nova versão. Kuittinen Petri, professor da Universidade de Ciências Aplicadas de Häme, publicou nas redes sociais que o modelo foi capaz de gerar “uma página inicial responsiva e de ótima aparência para uma empresa de IA” com 958 linhas de código.
Segundo ele, o site gerado era compatível com dispositivos móveis e funcionava corretamente. “A Anthropic e a OpenAI estão em apuros”, escreveu Petri. Ele também destacou que a DeepSeek opera com aproximadamente 2% dos recursos financeiros da OpenAI.
O modelo também foi testado por Awni Hannun, pesquisador do grupo Machine Learning Research (MLR) da Apple. Hannun informou ter executado o DeepSeek-V3-0324 em um chip M3 Ultra de 512 GB de RAM, com velocidade superior a 20 tokens por segundo. Apesar do desempenho abaixo da média em velocidade, o pico de uso de memória foi de 381 GB.
Jasper Zhang, medalhista de ouro em Olimpíadas de Matemática e doutor pela Universidade da Califórnia, Berkeley, testou o modelo com um problema da AIME 2025 e afirmou que ele “o resolveu sem problemas”.
Zhang também declarou que sua startup, Hyperbolic, já oferece suporte ao DeepSeek-V3-0324 em sua plataforma de nuvem. “Modelos de IA de código aberto mais confiantes vencerão no final”, escreveu Zhang na plataforma X.
Fahd Mirza, engenheiro-chefe de nuvem e inteligência artificial na empresa australiana de materiais de construção Boral, comentou na comunidade da Hugging Face que o novo modelo era “alucinante”.
Em seu canal no YouTube, publicou um vídeo demonstrando a execução de tarefas de matemática e programação com o DeepSeek-V3-0324, afirmando que o desempenho foi “excelente”.
Segundo Li Bangzhu, fundador do site AIcpb.com, que monitora a popularidade de modelos de IA, a nova versão representa um avanço significativo em relação às anteriores. “Os recursos de codificação são muito mais fortes, e a nova versão pode abrir caminho para o lançamento do R2”, afirmou.
Desde o lançamento de seu modelo R1, a DeepSeek tem recebido atenção crescente por parte da comunidade de inteligência artificial, especialmente por adotar uma estratégia de código aberto combinada com escalabilidade e desempenho competitivo.
O DeepSeek-V3-0324 tornou-se, desde seu lançamento, o modelo mais popular da plataforma Hugging Face, com avaliações positivas de usuários e especialistas.
A empresa ainda não divulgou detalhes sobre o projeto Ceres-2, próximo modelo da linha, mas analistas esperam que ele seja lançado nos próximos meses. Enquanto isso, a DeepSeek mantém sua posição entre as principais startups de IA da China, competindo diretamente com grandes empresas do setor global.
Com informações da SCMP