O novo sistema de IA da ByteDance atinge pontuação recorde e usa 50% menos treinamento para superar rivais no teste matemático AIME 2024
A proprietária do TikTok, ByteDance, que investiu pesadamente em inteligência artificial (IA), revelou um novo sistema que afirma melhorar o trabalho feito pela DeepSeek no treinamento de modelos de raciocínio de IA. DAPO, ou Decoupled Clip and Dynamic Sampling Policy Optimization, é um algoritmo de aprendizado por reforço escalável que ajuda um modelo de linguagem grande (LLM) a obter melhor comportamento de raciocínio complexo, como autoverificação e refinamento iterativo, de acordo com um artigo de pesquisa publicado no início desta semana pela ByteDance e pelo Instituto de Pesquisa da Indústria de IA da Universidade Tsinghua.
O algoritmo superou a abordagem de aprendizado por reforço no modelo de raciocínio R1 do DeepSeek, marcando 50 pontos no American Invitational Mathematics Examination (AIME) 2024 usando o modelo base Qwen2.5-32B do Alibaba Group Holding, em comparação com 47 pontos obtidos pelo R1 ao aplicar o mesmo modelo do Alibaba, mostrou o artigo.
Notavelmente, o DAPO obteve o melhor resultado com 50% menos etapas de treinamento.

A conquista atraiu comentários positivos acadêmicos e da indústria.
O engenheiro do Google DeepMind, Philipp Schmid, que compartilhou o projeto no X, disse que o novo método era “melhor do que” a “otimização de política relativa de grupo (GRPO)” do DeepSeek em aprendizado por reforço.
O GRPO é um dos métodos de treinamento do DeepSeek que permite que um modelo aprenda comparando diferentes ações e fazendo atualizações com um “grupo” de observações.
A equipe da ByteDance e da Tsinghua tentou o GRPO, mas ficou atrás do DeepSeek por 17 pontos na pontuação AIME, “sugerindo que detalhes críticos de treinamento podem ter sido omitidos no artigo R1”, disseram os pesquisadores. Eles também propuseram quatro novas técnicas para superar o DeepSeek.
“A comunidade se beneficia desse tipo de transparência e colaboração”, disse Arpit Sharma, chefe de ecossistema da construtora de infraestrutura de nuvem Aethir, em uma publicação no X.
Mas alguns expressaram dúvidas. O cientista sênior de pesquisa da Nvidia Vitaly Kurin perguntou no X se comparar o número de etapas de treinamento é apropriado porque não significa necessariamente uma redução no tempo total de treinamento.
O projeto DAPO é liderado pelo estagiário da ByteDance, Yu Qiying, que está fazendo seu doutorado em Tsinghua. Ele também envolve outros estagiários, incluindo Tong Yuxuan, do quarto ano de graduação em Tsinghua, e Sheng Guangming, que está trabalhando em seu doutorado na Universidade de Hong Kong.
A ByteDance vem expandindo esforços para engajar talentos de IA de alto nível antes que eles se formem. Na quinta-feira, sua equipe de LLM publicou um aviso de recrutamento de “estagiários de pesquisa”, visando aqueles que têm “crença e paixão extremamente fortes em tecnologia”. Os candidatos, que não se formarão antes de setembro de 2025, podem ficar baseados em várias cidades, incluindo Pequim, Xangai, Cingapura, bem como San Jose e Seattle nos EUA.
No início desta semana, a equipe LLM da ByteDance realizou uma reunião interna onde os colíderes Zhu Wenjia e Wu Yonghui, que recentemente ingressaram no Google , reafirmaram sua meta de “explorar o limite da inteligência” e prometeram “impulsionar o código aberto”, de acordo com a mídia local apoiada pelo estado ChinaStarMarket.cn.
Nenhum comentário ainda, seja o primeiro!