Menu

DeepSeek e Qwen e os segredos por trás de suas equipes

Investigação revela as conexões acadêmicas e profissionais que moldaram os engenheiros de IA da DeepSeek e Qwen e sua relação com a Microsoft A recente ascensão das plataformas de inteligência artificial DeepSeek e Qwen, da Alibaba, tem sido um tema quente entre especialistas em tecnologia e investidores na China e nos Estados Unidos. No entanto, […]

sem comentários
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News
De onde realmente vêm os engenheiros de IA da DeepSeek e da Qwen / Imagem / X Screengrab

Investigação revela as conexões acadêmicas e profissionais que moldaram os engenheiros de IA da DeepSeek e Qwen e sua relação com a Microsoft


A recente ascensão das plataformas de inteligência artificial DeepSeek e Qwen, da Alibaba, tem sido um tema quente entre especialistas em tecnologia e investidores na China e nos Estados Unidos. No entanto, informações específicas sobre as equipes de engenharia chinesas permanecem escassas.

Uma análise do Asia Times usando informações públicas sobre os antecedentes dos desenvolvedores dos dois chatbots pode ajudar a traçar um panorama mais claro de como o DeepSeek e o Qwen surgiram.

Com base em artigos de pesquisa e relatórios da mídia disponíveis publicamente, as equipes de engenharia do DeepSeek e do Qwen não colaboram nem se sobrepõem.

O único elo entre os dois é que os pesquisadores do DeepSeek afirmaram em um artigo publicado em 22 de janeiro deste ano que “destilaram” o Qwen2.5, além do Llama, da Meta, para desenvolver o DeepSeek-R1. O lançamento do DeepSeek-R1 causou uma queda no mercado de ações dos EUA no final de janeiro.

Alguns analistas acreditam que o DeepSeek, uma IA de código aberto, também pode ter usado “destilação de conhecimento” para extrair dados do ChatGPT, da OpenAI, e treinar seus modelos de IA. No entanto, nenhuma evidência conclusiva foi tornada pública até agora.

De acordo com o artigo de 22 de janeiro, o DeepSeek-R1 tem 16 contribuidores principais, alguns dos quais têm conexões diretas com o Microsoft Research Asia (MSRA) e a China Computer Federation (CCF).

O contribuidor principal Yu Wu foi supervisionado por Ming Zhou, do MSRA, durante seu doutorado na Universidade de Beihang entre 2014 e 2019. Ele foi estagiário em tempo integral no MSRA de 2013 a 2019 antes de ingressar como pesquisador associado em 2019.

Outro contribuidor principal, Daya Guo, também foi supervisionado por Ming Zhou durante seu doutorado na Universidade Sun Yat-sen, em Guangzhou, de 2018 a 2023. Ele foi orientado por Nan Duan entre 2020 e 2023 e por Duyu Tang entre 2017 e 2020 no grupo de Computação de Linguagem Natural do MSRA.

Os contribuidores principais Zhibin Gou e Zhihong Shao, ambos da Universidade de Tsinghua, coescreveram artigos com Nan Duan, do MSRA.

Zhenda Xie, outro colaborador do DeepSeek, foi orientado pelo cientista distinto do MSRA, Baining Guo, na Universidade de Tsinghua entre 2018 e 2023. Ele também trabalhou como estagiário de pesquisa no MSRA durante o mesmo período.

Ming Zhou e Nan Duan ainda trabalham no MSRA. Em 2016 e 2018, eles lideraram conjuntamente o Comitê de Aprovação de Terminologia da CCF. Zhou é atualmente vice-presidente da CCF.

A conexão entre a equipe do DeepSeek e os pesquisadores do MSRA, é claro, não significa que o MSRA tenha qualquer participação na empresa com sede em Hangzhou. No entanto, se os EUA intensificarem a pressão sobre o setor tecnológico chinês, o MSRA pode ser forçado a interromper seus programas de trabalho e estágio na China.

No início de 2023, o MSRA supostamente parou de recrutar estagiários de sete universidades chinesas e da Universidade de Correios e Telecomunicações de Pequim devido a preocupações sobre suas ligações com o Exército de Libertação Popular (ELP).

A Universidade Politécnica do Noroeste (NPU) e o Instituto de Tecnologia de Harbin (HIT), ambas sancionadas pelos EUA, estão entre essas instituições.

Academia DAMO

A Alibaba, com sede em Hangzhou e fundada pelo magnata chinês Jack Ma, desenvolveu seu chatbot de forma diferente.

A Alibaba, utilizando o fluxo de caixa gerado por seus negócios de comércio eletrônico, fundou a Academia DAMO em 2017 para realizar pesquisas em IA. DAMO significa Descoberta, Aventura, Momento e Perspectiva.

A academia estabeleceu um conselho consultivo composto por 10 educadores e pesquisadores renomados, sendo seis dos EUA e quatro de universidades chinesas.

A Alibaba designou Jingren Zhou, Diretor de Tecnologia da Aliyun, para liderar a Academia DAMO. Zhou obteve seu doutorado em ciência da computação pela Universidade de Columbia, nos Estados Unidos. Ele foi sócio de P&D da Microsoft por quatro anos antes de ingressar na Alibaba em julho de 2016.

Chang Zhou, engenheiro de algoritmos responsável pelo processamento de dados do Qwen, ingressou na Academia DAMO em 2017. Ele se formou na Universidade de Fudan em 2012 e concluiu seu doutorado na Universidade de Pequim em 2017.

Antes de entrar na Alibaba, ele já havia trabalhado com engenheiros de software da empresa em alguns projetos e coescreveu dois artigos com eles em 2017. O professor Jun Gao, da Universidade de Pequim, que aparentemente foi supervisor de Chang Zhou, estava entre os coautores.

Gao recebeu seu doutorado pela Universidade de Pequim em 2003 e publicou mais de 30 artigos de pesquisa. Ele tem projetos financiados pelo Programa 863 e pela Fundação Nacional de Ciências Naturais da China (NSFC).

Em março de 1986, 200 dos principais cientistas chineses propuseram o Programa 863 ao então líder chinês Deng Xiaoping. O governo estabeleceu o programa em novembro do mesmo ano.

Em 2022, Chang Zhou coescreveu um artigo de pesquisa com um grupo de acadêmicos, incluindo Bin Cui, da Universidade de Pequim, que também liderou alguns projetos financiados pelo Programa 863.

Cui é atualmente vice-diretor da Escola de Ciência da Computação da Universidade de Pequim e diretor adjunto do Comitê Técnico de Bancos de Dados da CCF.

Em julho passado, Chang Zhou decidiu levar consigo uma equipe de cerca de 10 engenheiros para ingressar na ByteDance. A Alibaba supostamente entrou com uma ação contra Zhou, alegando que ele não tinha o direito de se juntar a um concorrente.

Qwen vs DeepSeek

A equipe de pesquisa da Alibaba parece ter um conselho consultivo mais forte do que o DeepSeek. Ela também possui uma história mais longa em pesquisa de gerenciamento de dados.

Isso pode ser o motivo pelo qual a Alibaba conseguiu construir o Qwen2.5, um modelo de IA original, enquanto o DeepSeek apenas reuniu versões destiladas de outros modelos de IA. Isso também pode explicar por que a Apple Inc. recentemente se associou à Alibaba para lançar iPhones com IA.

A colunista de TI Amanda Caswell escreveu em um artigo recente que o Qwen2.5 supera o DeepSeek-R1 em todos os sete testes que ela realizou. Ela afirma que o Qwen2.5 oferece respostas mais estruturadas e legíveis, enquanto as respostas do DeepSeek-R1 carecem de profundidade e originalidade.

Do ponto de vista de Pequim, tanto o Qwen quanto o DeepSeek são igualmente importantes, pois ajudam a China a modernizar sua indústria e se proteger contra o desacoplamento e sanções dos EUA.

Relatórios da mídia indicam que o presidente chinês Xi Jinping em breve presidirá um simpósio para impulsionar o sentimento no setor privado. O cofundador da Alibaba, Jack Ma, e o fundador do DeepSeek, Liang Wenfeng, estarão presentes.

, , , , , , , , , , , , ,
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News

Comentários

Os comentários aqui postados são de responsabilidade exclusiva de seus autores e não representam a opinião do site O CAFEZINHO. Todos as mensagens são moderadas. Não serão aceitos comentários com ofensas, com links externos ao site, e em letras maiúsculas. Em casos de ofensas pessoais, preconceituosas, ou que incitem o ódio e a violência, denuncie.

Escrever comentário

Escreva seu comentário

Nenhum comentário ainda, seja o primeiro!


Leia mais

Recentes

Recentes