A startup chinesa de inteligência artificial DeepSeek anunciou o desenvolvimento de uma nova abordagem para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs).
O método foi criado em colaboração com pesquisadores da Universidade de Tsinghua e combina modelagem de recompensa generativa (GRM) com ajuste de crítica autodidata, conforme artigo publicado na plataforma arXiv na última sexta-feira.
De acordo com os autores do estudo, a proposta tem como objetivo permitir que os LLMs forneçam respostas mais eficazes e em menor tempo para consultas gerais.
A modelagem de recompensa, utilizada no processo, busca alinhar os modelos às preferências humanas, funcionando como um mecanismo de orientação.
Os pesquisadores relataram que os modelos DeepSeek-GRM resultantes superaram técnicas atuais, alcançando desempenho comparável ao de modelos de recompensa públicos consolidados.
A empresa afirmou que pretende tornar os modelos GRM de código aberto, embora não tenha apresentado cronograma para a liberação do conteúdo.
A publicação ocorre em meio a especulações sobre o lançamento do DeepSeek-R2, sucessor do modelo R1, que obteve notoriedade por oferecer desempenho competitivo a custos reduzidos.
Fontes consultadas pela agência Reuters em março indicaram que o lançamento do DeepSeek-R2 poderia ocorrer ainda neste mês.
A DeepSeek, no entanto, não comentou oficialmente o assunto. Segundo veículos de mídia chineses, uma conta de atendimento ao cliente da empresa negou o lançamento iminente durante uma interação com clientes empresariais em um grupo de mensagens. A startup também não respondeu a pedidos de comentário encaminhados na última sexta-feira.
Fundada em 2023 em Hangzhou pelo empresário Liang Wenfeng, a DeepSeek tem mantido uma postura de discrição pública, concentrando sua atuação na área de pesquisa e desenvolvimento.
Em fevereiro, a empresa anunciou a disponibilização em código aberto de cinco repositórios de software, permitindo a contribuição de desenvolvedores externos. Na ocasião, comprometeu-se com uma política de “progresso sincero com total transparência”.
No mês seguinte, atualizou seu modelo DeepSeek-V3, que passou a se chamar DeepSeek-V3-0324. A nova versão, segundo a empresa, incorporou melhorias em raciocínio, desenvolvimento web front-end e desempenho na produção de texto em língua chinesa.
Em paralelo, Liang publicou um estudo técnico abordando o conceito de “atenção esparsa nativa”, voltado à otimização do processamento de grandes volumes de dados por LLMs.
Liang, de 40 anos, também é fundador da High-Flyer Quant, empresa controladora da DeepSeek e responsável pelo financiamento dos projetos da startup. A High-Flyer é um fundo de hedge que atua no setor financeiro com foco em tecnologias quantitativas.
Em fevereiro, Liang participou de um simpósio realizado em Pequim com lideranças do setor de tecnologia. O evento foi organizado pelo presidente da China, Xi Jinping, e destacou a atuação da DeepSeek como um exemplo de resiliência do país diante das restrições impostas pelos Estados Unidos ao avanço tecnológico chinês no setor de inteligência artificial.
A introdução da técnica DeepSeek-GRM representa mais um movimento da startup na tentativa de consolidar sua presença no mercado de modelos de linguagem. A empresa tem buscado posicionar-se como uma alternativa competitiva às principais plataformas globais de IA, com foco em custo reduzido, eficiência operacional e desenvolvimento aberto.
Embora o DeepSeek-R1 tenha atraído atenção por suas capacidades, a ausência de informações oficiais sobre o R2 tem gerado incertezas quanto aos próximos passos da empresa. A publicação do novo artigo técnico indica continuidade nas atividades de pesquisa, mas ainda não esclarece os planos imediatos de lançamento de novos produtos.
O setor de inteligência artificial na China tem enfrentado desafios em função das restrições comerciais impostas por governos ocidentais, que dificultam o acesso a semicondutores avançados e outros componentes essenciais. Em resposta, empresas chinesas têm investido em soluções próprias, intensificando a cooperação entre universidades, startups e fundos de investimento nacionais.
Especialistas acompanham os movimentos da DeepSeek como parte de um esforço mais amplo da China para reduzir sua dependência tecnológica externa e fortalecer seu ecossistema de inovação em IA.
A consolidação de métodos como a modelagem de recompensa generativa e o ajuste de crítica autodidata está no centro das estratégias para elevar o desempenho e a aplicabilidade dos modelos de linguagem em diversos setores.
A expectativa em torno do DeepSeek-R2, se confirmada, poderá testar a capacidade da startup de sustentar o crescimento observado desde o lançamento do R1.
Enquanto isso, a empresa segue investindo em pesquisa acadêmica e colaborações técnicas, sem indicar mudanças em sua estratégia de comunicação restrita ao público externo.
Com informações da SCMP