Menu

DeepSeek corre para lançar novo modelo de IA enquanto a China investe tudo

Startup evita cultura típica de gigante tecnológica chinesa e é conhecida por hierarquia plana A DeepSeek está tentando reforçar sua vantagem. A startup chinesa desencadeou uma liquidação de mais de US$ 1 trilhão nos mercados de ações globais no mês passado com um modelo de raciocínio de IA de baixo custo que superou muitos concorrentes […]

sem comentários
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News
Dado Ruvic/Reuters

Startup evita cultura típica de gigante tecnológica chinesa e é conhecida por hierarquia plana

A DeepSeek está tentando reforçar sua vantagem.

A startup chinesa desencadeou uma liquidação de mais de US$ 1 trilhão nos mercados de ações globais no mês passado com um modelo de raciocínio de IA de baixo custo que superou muitos concorrentes ocidentais.

Agora, a empresa sediada em Hangzhou está acelerando o lançamento do sucessor do modelo R1 de janeiro, de acordo com três pessoas familiarizadas com a empresa.

A Deepseek havia planejado lançar o R2 no início de maio, mas agora quer lançá-lo o mais cedo possível, disseram dois deles, sem fornecer detalhes.

A empresa diz que espera que o novo modelo produza melhor codificação e seja capaz de raciocinar em idiomas além do inglês. Detalhes do cronograma acelerado para o lançamento do R2 não foram relatados anteriormente.

O DeepSeek não respondeu a um pedido de comentário para esta história.

Os rivais ainda estão digerindo as implicações do R1, que foi construído com chips Nvidia menos potentes, mas é competitivo com aqueles desenvolvidos aos custos de centenas de bilhões de dólares por gigantes da tecnologia dos EUA.

“O lançamento do modelo R2 da DeepSeek pode ser um momento crucial na indústria de IA”, disse Vijayasimha Alilughatta, diretor de operações da provedora indiana de serviços de tecnologia Zensar. O sucesso da DeepSeek na criação de modelos de IA com boa relação custo-benefício “provavelmente estimularia empresas em todo o mundo a acelerar seus próprios esforços… quebrando o domínio dos poucos participantes dominantes no campo”, disse ele.

O R2 provavelmente preocupará o governo dos EUA, que identificou a liderança da IA ​​como uma prioridade nacional. Seu lançamento pode galvanizar ainda mais as autoridades e empresas chinesas, dezenas das quais dizem ter começado a integrar modelos DeepSeek em seus produtos.

Pouco se sabe sobre a DeepSeek, cujo fundador Liang Wenfeng se tornou bilionário por meio de seu fundo de hedge quantitativo High-Flyer. Liang, que foi descrito por um antigo empregador como “discreto e introvertido”, não fala com nenhuma mídia desde julho de 2024.

A Reuters entrevistou uma dúzia de ex-funcionários, bem como profissionais de fundos quantitativos com conhecimento sobre as operações da DeepSeek e sua empresa controladora High-Flyer. Ela também revisou artigos da mídia estatal, postagens de mídia social das empresas e artigos de pesquisa que datam de 2019.

Eles contaram a história de uma empresa que funcionava mais como um laboratório de pesquisa do que como uma empresa com fins lucrativos e não estava sujeita às tradições hierárquicas da indústria tecnológica de alta pressão da China, mesmo tendo se tornado responsável pelo que muitos investidores veem como o mais recente avanço em IA.

Caminho diferente

Liang nasceu em 1985 em uma vila rural na província meridional de Guangdong. Mais tarde, ele obteve diplomas de engenharia de comunicação na elite da Universidade de Zhejiang.

Um de seus primeiros empregos foi comandar um departamento de pesquisa em uma empresa de imagens inteligentes em Xangai. Seu então chefe, Zhou Chaoen, disse à mídia estatal em 9 de fevereiro que Liang havia contratado engenheiros de algoritmos premiados e operado com um “estilo de gestão plano”.

Na DeepSeek e na High-Flyer, Liang também rejeitou as práticas das gigantes tecnológicas chinesas, conhecidas pela gestão rígida de cima para baixo, salários baixos para funcionários jovens e “996” (trabalho das 9h às 21h, seis dias por semana).

Liang abriu seu escritório em Pequim a uma curta distância da Universidade Tsinghua e da Universidade de Pequim, as duas instituições de ensino mais prestigiosas da China. Ele regularmente se aprofundava em detalhes técnicos e estava feliz em trabalhar ao lado de estagiários da Geração Z e recém-formados que compunham a maior parte de sua força de trabalho, de acordo com dois ex-funcionários. Eles também descreveram que geralmente trabalhavam oito horas por dia em uma atmosfera colaborativa.

“Liang nos deu controle e nos tratou como especialistas. Ele constantemente fazia perguntas e aprendia junto conosco”, disse o pesquisador Benjamin Liu, de 26 anos, que deixou a empresa em setembro. “O DeepSeek me permitiu assumir a propriedade de partes críticas do pipeline, o que foi muito emocionante.”

Liang não respondeu às perguntas enviadas via DeepSeek.

Enquanto o Baidu e outros gigantes da tecnologia chineses corriam para criar suas versões do ChatGPT voltadas para o consumidor em 2023 e lucrar com o boom global da IA, Liang disse ao meio de comunicação chinês Waves no ano passado que ele deliberadamente evitou gastar muito no desenvolvimento de aplicativos, concentrando-se em refinar a qualidade do modelo de IA.

Tanto a DeepSeek quanto a High-Flyer são conhecidas por pagar generosamente, de acordo com três pessoas familiarizadas com suas práticas de remuneração. Na High-Flyer, não é incomum que um cientista de dados sênior ganhe 1,5 milhão de yuans anualmente, enquanto os concorrentes raramente pagam mais de 800.000, disse uma das pessoas, um gestor de fundos quantitativos rival que conhece Liang.

A generosidade foi financiada pela High-Flyer, que se tornou um dos fundos quantitativos de maior sucesso da China e, mesmo após a repressão do governo ao setor, ainda administra dezenas de bilhões de yuans, de acordo com duas pessoas do setor.

Poder de Computação

O sucesso da DeepSeek com um modelo de IA de baixo custo é baseado no investimento substancial de uma década da High-Flyer em pesquisa e poder de computação, disseram três pessoas.

O fundo quantitativo foi um pioneiro na negociação de IA e um alto executivo disse em 2020 que a High-Flyer estava “apostando tudo” na IA ao reinvestir 70% de sua receita, principalmente em pesquisa de IA.

A High-Flyer gastou 1,2 bilhão de yuans em dois clusters de IA de supercomputação em 2020 e 2021. O segundo cluster, Fire-Flyer II, era composto por cerca de 10.000 chips Nvidia A100, usados ​​para treinar modelos de IA.

O DeepSeek ainda não havia sido criado naquela época, então o acúmulo de poder computacional chamou a atenção dos reguladores de valores mobiliários chineses, disse uma pessoa com conhecimento direto do pensamento das autoridades.

“Os reguladores queriam saber por que eles precisavam de tantos chips?”, disse a pessoa. “Como eles iriam usá-los? Que tipo de impacto isso teria no mercado?”
As autoridades decidiram não intervir, em uma atitude que seria crucial para o sucesso da DeepSeek: os EUA proibiram a exportação de chips A100 para a China em 2022, quando o Fire-Flyer II já estava em operação.

Pequim agora celebra o DeepSeek, mas instruiu o governo a não se envolver com a mídia sem aprovação, de acordo com uma pessoa familiarizada com o pensamento oficial chinês.

As autoridades pediram que Liang mantivesse um perfil discreto porque estavam preocupadas que muita publicidade na mídia pudesse atrair atenção desnecessária, disse a pessoa.

O gabinete e o ministério do comércio da China, bem como o regulador de valores mobiliários da China, não responderam aos pedidos de comentários.

Como uma das poucas empresas com um grande cluster A100, a High-Flyer e a DeepSeek conseguiram atrair alguns dos melhores talentos de pesquisa da China, disseram dois ex-funcionários.

“A principal vantagem de vastos recursos (de computação) é que eles permitem experimentação em larga escala”, disse Liu, o ex-funcionário.

Alguns empreendedores ocidentais de IA, como o CEO da Scale AI, Alexandr Wang, alegaram que a DeepSeek tinha até 50.000 chips Nvidia de ponta que são proibidos de exportar para a China. Ele não produziu evidências para a alegação ou respondeu aos pedidos da Reuters para fornecer provas.

A DeepSeek não respondeu às alegações de Wang. Dois ex-funcionários atribuíram o sucesso da empresa ao foco de Liang em uma arquitetura de IA mais econômica.
A startup usou técnicas como Mixture-of-Experts (MoE) e atenção latente multihead (MLA), que geram custos de computação muito mais baixos, mostram seus artigos de pesquisa.

A técnica MoE divide um modelo de IA em diferentes áreas de especialização e ativa apenas aquelas relacionadas a uma consulta, ao contrário de arquiteturas mais comuns que usam o modelo inteiro.

A arquitetura MLA permite que um modelo processe diferentes aspectos de uma informação simultaneamente, ajudando-o a detectar detalhes importantes com mais eficácia.

Enquanto concorrentes como a francesa Mistral desenvolveram modelos baseados no MoE, a DeepSeek foi a primeira empresa a depender fortemente dessa arquitetura, alcançando paridade com modelos mais caros.

O preço do DeepSeek era de 20 a 40 vezes mais barato do que o cobrado pela OpenAI por modelos equivalentes, estimaram analistas da corretora Bernstein no início de fevereiro.

Por enquanto, gigantes da tecnologia ocidentais e chinesas sinalizaram planos de continuar investindo pesado em IA, mas o sucesso da DeepSeek com o R1 e seu modelo anterior V3 levou alguns a alterar suas estratégias.

A OpenAI cortou os preços neste mês, enquanto a Gemini do Google introduziu níveis de acesso com desconto. Desde o lançamento do R1, a OpenAI também lançou um modelo O3-Mini que depende de menos poder de computação.

Adnan Masood, do provedor de serviços de tecnologia dos EUA UST, disse à Reuters que seu laboratório executou testes de desempenho que descobriram que o R1 frequentemente usava três vezes mais tokens, ou unidades de dados processados ​​pelo modelo de IA, para raciocínio do que o modelo reduzido da OpenAI.

Abraço do Estado

Mesmo antes de o R1 ganhar atenção global, havia sinais de que o DeepSeek havia conquistado o favor de Pequim. Em janeiro, a mídia estatal relatou que Liang compareceu a uma reunião com o premiê chinês Li Qiang em Pequim como representante designado do setor de IA, à frente dos líderes de empresas mais conhecidas.

O alarde subsequente sobre a competitividade de custos de seus modelos impulsionou a crença de Pequim de que pode inovar mais que os EUA, com empresas e órgãos governamentais chineses adotando modelos DeepSeek em um ritmo não oferecido a outras empresas.

Pelo menos 13 governos municipais chineses e 10 empresas estatais de energia dizem que implementaram o DeepSeek em seus sistemas, enquanto os gigantes da tecnologia Lenovo (0992.HK), abre uma nova aba, Baidu (9888.HK), abre uma nova abae Tencent (0700.HK), abre uma nova aba- proprietária do maior aplicativo de mídia social da China, WeChat – integrou os modelos da DeepSeek em seus produtos.

O líder chinês Xi Jinping e Li “sinalizaram que endossam o DeepSeek”, disse Alfred Wu, especialista em formulação de políticas chinesas na Escola de Políticas Públicas Lee Kuan Yew de Cingapura. “Agora, todo mundo simplesmente endossa.”

A adoção chinesa ocorre no momento em que governos da Coreia do Sul à Itália removem o DeepSeek das lojas de aplicativos nacionais, alegando preocupações com privacidade.

“Se o DeepSeek se tornar o modelo de IA preferido entre as entidades estatais chinesas, os reguladores ocidentais podem ver isso como outro motivo para aumentar as restrições aos chips de IA ou colaborações de software”, disse Stephen Wu, especialista em IA e fundador do fundo de hedge Carthage Capital.

Limitações adicionais em chips de IA avançados são um desafio que Liang reconheceu.

“Nosso problema nunca foi financiamento”, ele disse à Waves em julho. “É o embargo aos chips de ponta.”

Publicado originalmente pela Reuters em 25/02/2025 – 8h08

Por Eduardo Baptista, Julie Zhu e Fanny Potkin

Reportagem adicional de Samuel Shen, Gu Li, Larissa Liao, Aditya Soni e Shanghai Newsroom

Edição: Brenda Goh e Katerina Ang

, , , ,
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News

Comentários

Os comentários aqui postados são de responsabilidade exclusiva de seus autores e não representam a opinião do site O CAFEZINHO. Todos as mensagens são moderadas. Não serão aceitos comentários com ofensas, com links externos ao site, e em letras maiúsculas. Em casos de ofensas pessoais, preconceituosas, ou que incitem o ódio e a violência, denuncie.

Nenhum comentário ainda, seja o primeiro!


Leia mais

Recentes

Recentes