"Texto para vídeo: modelo pronto do Google para a criação de vídeos envolventes

2023-12-13 467 words 3 minutes

Contents

Passaram apenas alguns dias desde a apresentação do modelo Gemini de última geração que o Google parece querer agitar o mercado com mais uma inovação. Claro, ainda estamos falando de um estudo realizado por um grupo de pesquisadores da empresa Mountain View com a colaboração de uma equipe de acadêmicos das universidades de Stanford e do Georgia Institute of Technology. Porém, o Google mostra que já possui tecnologia para criar vídeos a partir de uma descrição de texto.

Os resultados são surpreendentes: veja os exemplos publicados nesta página. Como você pode ver, a página oferece muitos exemplos de vídeos: ao passar o ponteiro do mouse sobre cada um deles, você pode ler a solicitação em linguagem natural que levou à geração do arquivo. Pressionando o botão F5 ou em qualquer caso recarregando a mesma página, muitos outros exemplos são oferecidos.

W.A.L.T. é o novo sistema que cria vídeos a partir de uma descrição textual: o Google está na vanguarda

Existe por trás da “mágica”. W.A.L.T. (Window Attention Latent Transformer), um sistema inovador de geração de vídeos fotorrealistas baseado no uso de transformador e mecanismo de modelagem de difusão.

A modelagem de difusão é uma técnica que pode ser usada para gerar imagens ou vídeos por meio de amostragem iterativa de uma distribuição de probabilidade. A difusão pode ser vista como o processo de geração de pixels ou elementos de uma imagem ou vídeo.

O procedimento envolve uma série de etapas repetidas ( abordagem iterativa ): a cada iteração, novos pixels ou elementos são adicionados ou modificados, contribuindo para a formação progressiva da imagem ou vídeo final. A citada distribuição de probabilidade orienta o processo de amostragem, determinando quais valores são mais prováveis ou menos prováveis para fins de seleção possível. Uma amostragem realizada desta forma permite introduzir aleatoriedade e variações, ajudando a tornar o conteúdo gerado mais realista e interessante.

Segundo pesquisadores do Google e demais colaboradores que participaram do projeto, W.A.L.T. garante desempenho de primeiro nível com diversos benchmarks relacionados à geração de vídeos (UCF-101 e Kinetics-600) e imagens (ImageNet).

O treinamento de três modelos em cascata para geração de vídeos a partir de texto permite obter resultados emocionantes. Partimos de uma “Difusão Básica de Vídeo Latente” que aproveita “informações latentes” ou características fundamentais e aspectos-chave do vídeo a ser gerado.

O sistema utiliza dois modelos em sequência “Video Super-Resolution Diffusion”, especialmente projetados para realizar o upscaling da imagem do vídeo e melhorar a resolução da sequência produzida. Neste caso, até 512 x 896 pixels. Os três modelos usados em cascata permitem a chamada “geração de texto para vídeo”, traduzindo os textos em sequências de vídeo um por um velocidade de 8 quadros por segundo.

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

exemplos publicados nesta página , De acordo com pesquisadores do Google ,