Menu

Como o modelo de IA DeepSeek da China ameaça a liderança dos EUA

Um laboratório de IA pouco conhecido na China provocou pânico no Vale do Silício após lançar modelos de IA que superam os melhores dos Estados Unidos, apesar de serem desenvolvidos com orçamento menor e chips menos potentes. O DeepSeek, como é chamado o laboratório, revelou no final de dezembro um modelo de linguagem de código […]

sem comentários
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News

Um laboratório de IA pouco conhecido na China provocou pânico no Vale do Silício após lançar modelos de IA que superam os melhores dos Estados Unidos, apesar de serem desenvolvidos com orçamento menor e chips menos potentes.

O DeepSeek, como é chamado o laboratório, revelou no final de dezembro um modelo de linguagem de código aberto que, segundo eles, levou apenas dois meses e menos de US$ 6 milhões para ser desenvolvido, utilizando chips de capacidade reduzida da Nvidia, chamados H800s.

Esses avanços levantaram preocupações sobre a possível redução da liderança global dos Estados Unidos em inteligência artificial e questionaram os enormes gastos das big techs na construção de modelos de IA e centros de dados.

Em testes de referência conduzidos por terceiros, o modelo do DeepSeek superou o Llama 3.1 da Meta, o GPT-4o da OpenAI e o Claude Sonnet 3.5 da Anthropic, em termos de precisão, abrangendo resolução de problemas complexos, matemática e codificação.

Na segunda-feira, o DeepSeek lançou o r1, um modelo de raciocínio que também superou o modelo mais recente da OpenAI, o o1, em muitos desses testes.

“Ver o novo modelo do DeepSeek é impressionante, especialmente por eles terem feito um modelo de código aberto que é eficiente tanto em termos de computação quanto de custo,” afirmou o CEO da Microsoft, Satya Nadella, durante o Fórum Econômico Mundial em Davos, na Suíça, na quarta-feira. “Devemos levar os avanços vindos da China muito, muito a sério.”

O DeepSeek também teve que lidar com as restrições rigorosas de semicondutores impostas pelo governo dos EUA à China, que cortaram o acesso do país aos chips mais poderosos, como os H100s da Nvidia. Os avanços mais recentes sugerem que o DeepSeek encontrou uma maneira de contornar as regras ou que os controles de exportação não surtiram o efeito esperado por Washington.

“Eles podem pegar um modelo grande e bom e usar um processo chamado destilação,” explicou Chetan Puttagunta, sócio da Benchmark. “Basicamente, você usa um modelo muito grande para ajudar seu modelo menor a se especializar na tarefa desejada. Isso é realmente muito eficiente em termos de custo.”

Pouco se sabe sobre o laboratório e seu fundador, Liang WenFeng. Relatos da mídia indicam que o DeepSeek nasceu de um fundo de hedge chinês chamado High-Flyer Quant, que administra cerca de US$ 8 bilhões em ativos.

No entanto, o DeepSeek não é a única empresa chinesa avançando nesse campo.

O renomado pesquisador de IA Kai-Fu Lee afirmou que sua startup, a 01.ai, treinou um modelo com apenas US$ 3 milhões. Já a ByteDance, empresa-mãe do TikTok, lançou na quarta-feira uma atualização para seu modelo, alegando superar o o1 da OpenAI em um teste de referência importante.

“A necessidade é a mãe da invenção,” disse Aravind Srinivas, CEO da Perplexity. “Por precisarem encontrar alternativas, eles acabaram desenvolvendo algo muito mais eficiente.”

Por Jasmine Wu e Deirdre Bosa, publicado em 24 de janeiro de 2025, na CNBC

, , , , , , , , , , , , , , , , , , ,
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News

Comentários

Os comentários aqui postados são de responsabilidade exclusiva de seus autores e não representam a opinião do site O CAFEZINHO. Todos as mensagens são moderadas. Não serão aceitos comentários com ofensas, com links externos ao site, e em letras maiúsculas. Em casos de ofensas pessoais, preconceituosas, ou que incitem o ódio e a violência, denuncie.

Escrever comentário

Escreva seu comentário

Nenhum comentário ainda, seja o primeiro!


Leia mais

Recentes

Recentes