DeepSeek atualiza modelo de IA e amplia desempenho em matemática e codificação

REPRODUÇÃO

A startup chinesa DeepSeek anunciou a atualização de seu modelo de linguagem de código aberto, batizado de DeepSeek-V3-0324, que incorpora melhorias no desempenho matemático, na capacidade de codificação e na geração de conteúdo em língua chinesa.

O novo modelo sucede o DeepSeek V3 e foi lançado na plataforma de desenvolvedores Hugging Face, além do próprio site da empresa.

O DeepSeek-V3-0324 possui 685 bilhões de parâmetros e utiliza a licença de software do MIT, em contraste com os 671 bilhões de parâmetros do DeepSeek V3, que opera sob licença comercial da própria empresa.

Segundo comunicado da companhia, o modelo foi otimizado com foco em desenvolvimento web front-end, raciocínio lógico e escrita em chinês.

A atualização do modelo refletiu em avanços em benchmarks de desempenho. No American Invitational Mathematics Examination (AIME), o modelo obteve uma pontuação de 59,4, superando os 39,6 pontos da versão anterior.

No LiveCodeBench, plataforma que avalia habilidades de codificação, o novo modelo registrou 49,2 pontos, um aumento de 10 em relação ao desempenho anterior.

O modelo também é a base do DeepSeek R1, voltado para tarefas de raciocínio. Lançado em janeiro, o R1 chamou a atenção por aliar desempenho elevado a um custo reduzido.

A expectativa no setor é que uma nova versão, o R2, seja anunciada em breve. Segundo reportagem da agência Reuters, o lançamento estava previsto para maio, mas pode ser antecipado.

A arquitetura do DeepSeek-V3-0324 adota o sistema “Mixture-of-Experts”, voltado para a ampliação da escala dos modelos de linguagem de forma mais eficiente em termos computacionais.

A estratégia visa melhorar o desempenho sem aumento proporcional no consumo de recursos, o que pode tornar os modelos mais acessíveis para testes e aplicações em ambientes com capacidade limitada.

Especialistas da comunidade acadêmica e do setor tecnológico comentaram o desempenho da nova versão. Kuittinen Petri, professor da Universidade de Ciências Aplicadas de Häme, publicou nas redes sociais que o modelo foi capaz de gerar “uma página inicial responsiva e de ótima aparência para uma empresa de IA” com 958 linhas de código.

Segundo ele, o site gerado era compatível com dispositivos móveis e funcionava corretamente. “A Anthropic e a OpenAI estão em apuros”, escreveu Petri. Ele também destacou que a DeepSeek opera com aproximadamente 2% dos recursos financeiros da OpenAI.

O modelo também foi testado por Awni Hannun, pesquisador do grupo Machine Learning Research (MLR) da Apple. Hannun informou ter executado o DeepSeek-V3-0324 em um chip M3 Ultra de 512 GB de RAM, com velocidade superior a 20 tokens por segundo. Apesar do desempenho abaixo da média em velocidade, o pico de uso de memória foi de 381 GB.

Jasper Zhang, medalhista de ouro em Olimpíadas de Matemática e doutor pela Universidade da Califórnia, Berkeley, testou o modelo com um problema da AIME 2025 e afirmou que ele “o resolveu sem problemas”.

Zhang também declarou que sua startup, Hyperbolic, já oferece suporte ao DeepSeek-V3-0324 em sua plataforma de nuvem. “Modelos de IA de código aberto mais confiantes vencerão no final”, escreveu Zhang na plataforma X.

Fahd Mirza, engenheiro-chefe de nuvem e inteligência artificial na empresa australiana de materiais de construção Boral, comentou na comunidade da Hugging Face que o novo modelo era “alucinante”.

Em seu canal no YouTube, publicou um vídeo demonstrando a execução de tarefas de matemática e programação com o DeepSeek-V3-0324, afirmando que o desempenho foi “excelente”.

Segundo Li Bangzhu, fundador do site AIcpb.com, que monitora a popularidade de modelos de IA, a nova versão representa um avanço significativo em relação às anteriores. “Os recursos de codificação são muito mais fortes, e a nova versão pode abrir caminho para o lançamento do R2”, afirmou.

Desde o lançamento de seu modelo R1, a DeepSeek tem recebido atenção crescente por parte da comunidade de inteligência artificial, especialmente por adotar uma estratégia de código aberto combinada com escalabilidade e desempenho competitivo.

O DeepSeek-V3-0324 tornou-se, desde seu lançamento, o modelo mais popular da plataforma Hugging Face, com avaliações positivas de usuários e especialistas.

A empresa ainda não divulgou detalhes sobre o projeto Ceres-2, próximo modelo da linha, mas analistas esperam que ele seja lançado nos próximos meses. Enquanto isso, a DeepSeek mantém sua posição entre as principais startups de IA da China, competindo diretamente com grandes empresas do setor global.

Com informações da SCMP

Redação:
Related Post

Privacidade e cookies: Este site utiliza cookies. Ao continuar a usar este site, você concorda com seu uso.