Com avanços rápidos e tecnologia aberta, a China diminui a distância dos EUA na corrida pela inteligência artificial, desafiando líderes como OpenAI e Google
O primeiro “modelo de raciocínio” do mundo, uma forma avançada de inteligência artificial, foi lançado em setembro pela OpenAI, uma empresa americana. Chamado de o1, ele utiliza uma “cadeia de pensamento” para responder a questões complexas em ciências e matemática, decompondo problemas em etapas constituintes e testando diversas abordagens nos bastidores antes de apresentar uma conclusão ao usuário. Seu lançamento desencadeou uma corrida para replicar esse método. A Google desenvolveu um modelo de raciocínio chamado “Gemini Flash Thinking” em dezembro. A OpenAI respondeu com o3, uma atualização do o1, poucos dias depois.
No entanto, apesar de seus vastos recursos, a Google não foi a primeira empresa a emular a OpenAI. Menos de três meses após o lançamento do o1, a Alibaba, gigante chinesa do comércio eletrônico, lançou uma nova versão de seu chatbot Qwen, o QwQ, com as mesmas capacidades de “raciocínio”. “O que significa pensar, questionar, entender?”, questionou a empresa em um blog post florido, com um link para uma versão gratuita do modelo. Outra empresa chinesa, a DeepSeek, havia lançado uma “prévia” de um modelo de raciocínio, chamado R1, uma semana antes. Apesar dos esforços do governo americano para conter a indústria de IA da China, duas empresas chinesas reduziram a vantagem tecnológica de suas contrapartes americanas para meras semanas.
Não é apenas com modelos de raciocínio que as empresas chinesas estão na vanguarda: em dezembro, a DeepSeek publicou um novo modelo de linguagem de grande escala (LLM, na sigla em inglês), uma forma de IA que analisa e gera texto. O v3 tinha quase 700 gigabytes, grande demais para rodar em qualquer hardware que não fosse especializado, e contava com 685 bilhões de parâmetros, os preceitos individuais que se combinam para formar a rede neural do modelo. Isso o tornou maior do que qualquer coisa já lançada para download gratuito. O Llama 3.1, o principal LLM da Meta, controladora do Facebook, lançado em julho, tem apenas 405 bilhões de parâmetros.
O LLM da DeepSeek não só é maior do que muitos de seus equivalentes ocidentais, mas também é melhor, equiparando-se apenas aos modelos proprietários da Google e da OpenAI. Paul Gauthier, fundador da Aider, uma plataforma de codificação com IA, testou o novo modelo da DeepSeek em seu benchmark de codificação e descobriu que ele superou todos os rivais, exceto o próprio o1. O Lmsys, um ranking colaborativo de chatbots, o coloca em sétimo lugar, acima de qualquer outro modelo de código aberto e como o mais bem posicionado produzido por uma empresa que não seja Google ou OpenAI (veja o gráfico).
O dragão entra em cena
A IA chinesa está agora tão próxima em qualidade de seus rivais americanos que o CEO da OpenAI, Sam Altman, sentiu-se obrigado a explicar a estreita margem da diferença. Pouco após o lançamento do v3 pela DeepSeek, ele tuitou irritadiço: “É (relativamente) fácil copiar algo que você sabe que funciona. É extremamente difícil fazer algo novo, arriscado e desafiador quando você não sabe se vai funcionar.”
A indústria de IA chinesa inicialmente parecia de segunda linha. Isso pode ser, em parte, porque teve que lidar com sanções americanas. Em 2022, os EUA proibiram a exportação de chips avançados para a China. A Nvidia, uma das principais fabricantes de chips, teve que criar versões especiais reduzidas de seus produtos para o mercado chinês. Os EUA também tentaram impedir a China de desenvolver a capacidade de fabricar chips de ponta em seu território, proibindo a exportação de equipamentos necessários e ameaçando penalizar empresas não americanas que pudessem ajudar.
Outro obstáculo é interno. As empresas chinesas chegaram tarde ao desenvolvimento de LLMs, em parte devido a preocupações regulatórias. Elas temiam como os censores reagiriam a modelos que pudessem “alucinar” e fornecer informações incorretas ou, pior ainda, gerar declarações politicamente perigosas. A Baidu, gigante das buscas, havia experimentado LLMs internamente por anos e criou um chamado “ERNIE”, mas hesitava em liberá-lo ao público. Mesmo quando o sucesso do ChatGPT a fez reconsiderar, inicialmente permitiu o acesso ao ERNIEbot apenas por convite.
Eventualmente, as autoridades chinesas emitiram regulamentações para fomentar a indústria de IA. Embora tenham pedido que os criadores de modelos enfatizassem conteúdo seguro e aderissem a “valores socialistas”, também se comprometeram a “incentivar o desenvolvimento inovador da IA generativa”. A China buscou competir globalmente, diz Vivian Toh, editora do site de notícias TechTechChina. A Alibaba foi uma das primeiras empresas a se adaptar ao novo ambiente permissivo, lançando seu próprio LLM, inicialmente chamado Tongyi Qianwen e posteriormente abreviado para “Qwen”.
Por cerca de um ano, o que a Alibaba produziu não era nada empolgante: uma “fork” bastante comum baseada no LLM de código aberto Llama, da Meta. Mas ao longo de 2024, à medida que a Alibaba lançava iterações sucessivas do Qwen, a qualidade começou a melhorar. “Esses modelos parecem ser competitivos com modelos muito poderosos desenvolvidos por laboratórios líderes no Ocidente”, disse Jack Clark, da Anthropic, um laboratório de IA ocidental, há um ano, quando a Alibaba lançou uma versão do Qwen capaz de analisar imagens e textos.
Outros gigantes da internet chinesa, como Tencent e Huawei, estão construindo seus próprios modelos. Mas a DeepSeek tem origens diferentes. Ela nem existia quando a Alibaba lançou o primeiro modelo Qwen. Ela descende da High-Flyer, um fundo de hedge criado em 2015 para usar IA e ganhar vantagem no mercado de ações. A realização de pesquisas fundamentais ajudou a High-Flyer a se tornar um dos maiores fundos quant do país.
Mas a motivação não era puramente comercial, segundo Liang Wenfeng, fundador da High-Flyer. Ele observou que os primeiros apoiadores da OpenAI não buscavam retorno financeiro; sua motivação era “perseguir a missão”. No mesmo mês em que o Qwen foi lançado, em 2023, a High-Flyer anunciou que também estava entrando na corrida para criar uma IA de nível humano e separou sua unidade de pesquisa em IA como DeepSeek.
Assim como a OpenAI havia feito antes, a DeepSeek prometeu desenvolver IA para o bem público. A empresa tornaria públicos a maioria de seus resultados de treinamento, disse Liang, para tentar evitar a “monopolização” da tecnologia por poucos indivíduos ou empresas. Diferente da OpenAI, que foi forçada a buscar financiamento privado para cobrir os custos crescentes de treinamento, a DeepSeek sempre teve acesso aos vastos recursos de poder computacional da High-Flyer.
O gigantesco LLM da DeepSeek é notável não apenas por sua escala, mas pela eficiência de seu treinamento, no qual o modelo é alimentado com dados dos quais infere seus parâmetros. Esse sucesso não veio de uma única grande inovação, diz Nic Lane, da Universidade de Cambridge, mas de uma série de melhorias marginais. O processo de treinamento, por exemplo, frequentemente usava arredondamentos para facilitar cálculos, mas mantinha os números precisos quando necessário. A fazenda de servidores foi reconfigurada para permitir que chips individuais se comunicassem de forma mais eficiente. E, após o treinamento, o modelo foi ajustado com base no output do DeepSeek R1, o sistema de raciocínio, aprendendo a imitar sua qualidade a um custo menor.
Graças a essas e outras inovações, a criação dos bilhões de parâmetros do v3 levou menos de 3 milhões de horas de chip, a um custo estimado de menos de US$ 6 milhões — cerca de um décimo do poder computacional e despesa investidos no Llama 3.1. O treinamento do v3 exigiu apenas 2.000 chips, enquanto o Llama 3.1 usou 16.000. E, devido às sanções americanas, os chips usados pelo v3 nem eram os mais potentes. As empresas ocidentais parecem cada vez mais perdulárias com chips: a Meta planeja construir uma fazenda de servidores com 350.000 deles. Como Ginger Rogers dançando de costas e de salto alto, a DeepSeek, diz Andrej Karpathy, ex-chefe de IA da Tesla, fez parecer “fácil” treinar um modelo de ponta “com um orçamento ridículo”.
Não apenas o modelo foi treinado de forma econômica, mas executá-lo também custa menos. A DeepSeek divide tarefas entre múltiplos chips de forma mais eficiente que seus pares e inicia a próxima etapa de um processo antes que a anterior seja concluída. Isso permite que os chips trabalhem em capacidade máxima com pouca redundância. Como resultado, em fevereiro, quando a DeepSeek começou a permitir que outras empresas criassem serviços usando o v3, ela cobrará menos de um décimo do que a Anthropic cobra pelo uso do Claude, seu LLM. “Se os modelos forem realmente de qualidade equivalente, isso é uma reviravolta dramática nas guerras de preços dos LLMs”, diz Simon Willison, especialista em IA.
A busca da DeepSeek por eficiência não parou por aí. Esta semana, ao mesmo tempo em que publicou o R1 na íntegra, também lançou uma série de variantes “destiladas”, menores, mais baratas e rápidas, que são quase tão poderosas quanto o modelo maior. Isso imitou lançamentos semelhantes da Alibaba e da Meta e provou mais uma vez que ela pode competir com os maiores nomes do setor.
O caminho do dragão
A Alibaba e a DeepSeek desafiam os laboratórios ocidentais mais avançados de outra forma também. Diferente da OpenAI e da Google, os laboratórios chineses seguem o exemplo da Meta e disponibilizam seus sistemas sob uma licença de código aberto. Se você quiser baixar uma IA Qwen e construir sua própria programação sobre ela, pode fazê-lo — nenhuma permissão específica é necessária. Essa permissividade é acompanhada por uma notável abertura: as duas empresas publicam artigos sempre que lançam novos modelos, fornecendo uma riqueza de detalhes sobre as técnicas usadas para melhorar seu desempenho.
Quando a Alibaba lançou o QwQ, sigla para “Questions with Qwen”, ela se tornou a primeira empresa do mundo a publicar tal modelo sob uma licença aberta, permitindo que qualquer pessoa baixasse o arquivo completo de 20 gigabytes e o rodasse em seus próprios sistemas ou o desmontasse para ver como funciona. Essa é uma abordagem marcadamente diferente da OpenAI, que mantém os mecanismos internos do o1 ocultos.
Em linhas gerais, ambos os modelos aplicam o que é conhecido como “computação em tempo de teste”: em vez de concentrar o uso de poder computacional durante o treinamento do modelo, eles também consomem muito mais ao responder consultas do que as gerações anteriores de LLMs (veja a seção de Negócios). Essa é uma versão digital do que Daniel Kahneman, psicólogo, chamou de pensamento “tipo dois”: mais lento, deliberado e analítico do que o pensamento “tipo um”, rápido e instintivo. Isso tem gerado resultados promissores em áreas como matemática e programação.
Se você for questionado sobre algo factual simples — por exemplo, o nome da capital da França — provavelmente responderá com a primeira palavra que vier à mente e provavelmente estará correto. Um chatbot típico funciona de maneira semelhante: se sua representação estatística da linguagem apontar para uma resposta preferencial, ele completará a frase de acordo.
Mas se você for questionado sobre algo mais complexo, tenderá a pensar de forma mais estruturada. Se perguntado sobre a quinta cidade mais populosa da França, você provavelmente começará listando as maiores cidades francesas, tentará ordená-las por população e só então dará uma resposta.
O truque do o1 e de seus imitadores é induzir um LLM a se engajar nessa mesma forma de pensamento estruturado: em vez de simplesmente dar a resposta mais plausível que vem à mente, o sistema decompõe o problema e chega à resposta passo a passo.
Mas o o1 mantém seus pensamentos ocultos, revelando aos usuários apenas um resumo de seu processo e sua conclusão final. A OpenAI apresentou algumas justificativas para essa escolha. Às vezes, por exemplo, o modelo ponderará se deve usar palavras ofensivas ou revelar informações perigosas, mas decidirá não fazê-lo. Se seu raciocínio completo for exposto, o material sensível também será. Mas a circunspecção do modelo também mantém os mecanismos precisos de seu raciocínio ocultos de possíveis imitadores.
A Alibaba não tem tais preocupações. Peça ao QwQ para resolver um problema matemático complexo e ele detalhará alegremente cada etapa de seu processo, às vezes falando consigo mesmo por milhares de palavras enquanto tenta várias abordagens para a tarefa. “Então, preciso encontrar o menor fator primo ímpar de 20198 + 1. Hmm, isso parece grande, mas acho que posso quebrar isso passo a passo”, começa o modelo, gerando 2.000 palavras de análise antes de concluir, corretamente, que a resposta é 97.
A abertura da Alibaba não é uma coincidência, diz Eiso Kant, cofundador da Poolside, uma empresa portuguesa que cria uma ferramenta de IA para programadores. Ele observa que os laboratórios chineses estão em uma batalha pelo mesmo talento que o resto da indústria. “Se você é um pesquisador considerando mudar para o exterior, o que os laboratórios ocidentais não podem te oferecer? Não podemos abrir mais nossas coisas. Estamos mantendo tudo sob chave, devido à natureza da corrida em que estamos.” Mesmo que os engenheiros das empresas chinesas não sejam os primeiros a descobrir uma técnica, muitas vezes são os primeiros a publicá-la, diz Kant. “Se você quiser ver qualquer uma das técnicas secretas surgirem, siga os pesquisadores de código aberto chineses. Eles publicam tudo e estão fazendo um trabalho incrível nisso.” O artigo que acompanhou o lançamento do v3 listou 139 autores pelo nome, observa Lane. Tal reconhecimento pode ser mais atraente do que trabalhar no anonimato em um laboratório americano.
A determinação do governo americano em impedir o fluxo de tecnologia avançada para a China também tornou a vida menos agradável para pesquisadores chineses nos EUA. O problema não é apenas o fardo administrativo imposto por novas leis que visam manter as inovações mais recentes em segredo. Há também, muitas vezes, uma atmosfera vaga de suspeita. Acusações de espionagem surgem até em eventos sociais.
O grande chefe
Trabalhar na China também tem seus pontos negativos. Pergunte ao DeepSeek v3 sobre Taiwan, por exemplo, e o modelo começa alegremente a explicar que é uma ilha no leste da Ásia “oficialmente conhecida como República da China”. Mas, após compor algumas frases nesse sentido, ele se interrompe, apaga sua resposta inicial e sugere secamente: “Vamos falar de outra coisa.”
Os laboratórios chineses são mais transparentes que seu governo em parte porque desejam criar um ecossistema de empresas centrado em sua IA. Isso tem algum valor comercial, já que as empresas que constroem sobre os modelos de código aberto podem eventualmente ser persuadidas a comprar produtos ou serviços de seus criadores. Também traz um benefício estratégico para a China, ao criar aliados em seu conflito com os EUA pela IA.
As empresas chinesas naturalmente preferem construir sobre modelos chineses, pois não precisam se preocupar que novas proibições ou restrições as cortem da plataforma subjacente. Elas também sabem que é improvável que violem requisitos de censura na China, que modelos ocidentais não levariam em consideração. Para empresas como Apple e Samsung, ansiosas por integrar ferramentas de IA aos dispositivos que vendem na China, parceiros locais são essenciais, observa Francis Young, um investidor em tecnologia baseado em Xangai. E até algumas empresas no exterior têm razões específicas para usar modelos chineses: o Qwen foi deliberadamente projetado para ser fluente em idiomas de “baixos recursos”, como urdu e bengali, enquanto os modelos americanos são treinados principalmente com dados em inglês. E, claro, há o enorme atrativo dos custos mais baixos de operação dos modelos chineses.
Isso não significa necessariamente que os modelos chineses vão varrer o mundo. A IA americana ainda tem capacidades que seus rivais chineses ainda não conseguem igualar. Um programa de pesquisa do Google entrega o navegador da web de um usuário para seu chatbot Gemini, aumentando a perspectiva de “agentes” de IA interagindo com a web. Os chatbots da Anthropic e Open AI não vão apenas ajudar você a escrever código, mas também vão executá-lo para você. Claude vai construir e hospedar aplicativos inteiros. E o raciocínio passo a passo não é a única maneira de resolver problemas complexos. Pergunte à versão convencional do Chat GPT a questão matemática acima e ele escreve um programa simples para encontrar a resposta.
Mais inovações estão a caminho, de acordo com o Sr. Altman, que deve anunciar em breve que a Open AI construiu “ superagentes de nível P h D ” que são tão capazes quanto especialistas humanos em uma série de tarefas intelectuais. A competição que está mordendo os calcanhares da American AI pode ainda estimulá-la a coisas maiores.
Nenhum comentário ainda, seja o primeiro!