Equipe chinesa revela primeiro modelo de IA de texto para vídeo semelhante ao Sora

A empresa de tecnologia chinesa ShengShu-AI e a Universidade de Tsinghua revelaram no sábado o modelo de inteligência artificial (IA) de texto para vídeo Vidu, que é considerado o primeiro na China a par de Sora, em outra manifestação do rápido desenvolvimento da China no campo crítico emergente de IA. Lançado no Fórum Zhongguancun em […]

Redação

27/04/2024 - 19h20 sem comentários

Apoie o Cafezinho

Siga-nos no

O lançamento do modelo de IA de texto para vídeo Vidu no Fórum Zhongguancun de 2024 em 27 de abril de 2024 Foto: Cortesia do Fórum Zhongguancun

Lançado no Fórum Zhongguancun em andamento em Pequim, o Vidu pode gerar um videoclipe 1080P de 16 segundos com um clique. Ele é construído em uma arquitetura de modelo de transformação visual autodesenvolvida chamada Universal Vision Transformer (U-ViT), integrando dois modelos de IA de texto para vídeo do Diffusion e do Transformer, disseram os desenvolvedores.

O modelo de texto para vídeo de IA surgiu apenas cerca de dois meses depois que Sora, desenvolvido pelo desenvolvedor norte-americano OpenAI, foi lançado com grande alarde em todo o mundo.

“Após o lançamento do Sora, descobrimos que ele estava intimamente alinhado com nosso roteiro técnico, o que nos motivou ainda mais a avançar em nossa pesquisa com determinação”, disse Zhu Jun, vice-reitor do Instituto de Inteligência Artificial da Universidade Tsinghua e cientista-chefe da ShengShu- AI, disse no fórum.

A tecnologia central do U-ViT foi proposta pela primeira vez pela equipe de pesquisa da Vidu em setembro de 2022, antes da arquitetura modelo DiT – Diversity in Transformation de Sora, que é a primeira arquitetura de modelo de transformação visual do mundo combinando as vantagens da Difusão e do Transformador, de acordo às reportagens da mídia.

Durante uma demonstração ao vivo no sábado, o Vidu pode simular o mundo físico real e gerar cenas com detalhes complexos alinhados com as leis físicas reais, como efeitos razoáveis de luz e sombra e expressões faciais delicadas. Também pode gerar tomadas dinâmicas complexas, em vez de fixas.

Além disso, desenvolvido na China, o Vidu tem um grande conhecimento dos fatores chineses e pode gerar imagens de caracteres chineses únicos, como panda e loong, segundo relatos da mídia.

Via Global Times.

Apoie o Cafezinho