Dê vida às suas fotos com a revolucionária tecnologia de IA do Alibaba!

2024-02-29 719 words 4 minutes

Contents

Nos últimos dois anos vimos como a inteligência artificial vem conquistando a Internet através de múltiplas ferramentas e aplicações. Além dos chatbots existentes, hoje podemos encontrar ferramentas muito realistas para geração de imagens, de áudio, de vídeo e até para passar de áudio para vídeo. Para o último mencionado, o Alibaba preparou uma ferramenta incrível que nos permitirá dar vida a qualquer imagem através de uma música ou apenas conversando.

A gigante chinesa desenvolveu um aplicativo que nos permite pegar uma imagem como referência e uma trilha de áudio e combiná-las para gerar um vídeo da pessoa na foto cantando ou falando. Embora esta técnica não seja nova, é a primeira vez que vemos resultados tão realistas.

Alibaba cria EMO, a IA que converte foto e áudio em vídeo

A equipe de pesquisadores do Instituto de Inteligência Computacional do Alibaba nomeou seu AI’EMO’, um acrônimo para’Emote Portrait Alive’. A ferramenta é capaz de animar um retrato e gerar vídeos da pessoa enquanto fala ou canta.

Através do site oficial Vários exemplos de funcionamento desta tecnologia foram mostrados ao longo do projeto. O Alibaba também criou um exemplo retirado do vídeo que a OpenAI mostrou com sora, sua IA para gerar vídeos realistas. Segundo ele documento do estudo, a IA é capaz de criar movimentos faciais fluidos e expressivos , bem como poses de cabeça que se encaixam quase perfeitamente com a música ou áudio reproduzido em segundo plano.

Nas abordagens tradicionais para capturar expressões humanas e características faciais únicas, há frequentemente uma incapacidade de abranger totalmente a amplitude da expressão humana e a distinção dos estilos faciais individuais. O autor principal, Linrui Tian, postula que esta limitação pode ser abordada através da utilização do EMO, uma estrutura inovadora que emprega uma metodologia direta de síntese de áudio para vídeo, eliminando a necessidade de intervenção de modelos tridimensionais ou dados de marcos faciais.

Seu modelo de transmissão é capaz de converter facilmente áudio em vídeo. Os pesquisadores treinaram o modelo com um conjunto de dados de mais de 250 horas de vídeos de reuniões sociais extraídos de discursos, filmes, programas de televisão e performances de artistas musicais.

Algoritmo e procedimento de geração de vídeo. Imagem: Alibaba

Em vez de usar 3D para esticar a fotografia e fingir que ela ganhou vida, o EMO converte diretamente ondas de áudio em quadros de vídeo. Isso permite capturar movimentos sutis e peculiaridades específicas da identidade associadas à fala natural.

De acordo com os experimentos descritos no artigo de estudo, o EMO supera significativamente os métodos mais avançados em qualidade de vídeo, preservação da identidade e expressão do retrato. E para falar a verdade, basta olhar os exemplos para saber que esta inteligência artificial está a léguas de distância dos modelos existentes para modificar uma fotografia e fazer com que a pessoa que nela aparece fale ou cante.

Neste site Mistral AI é um novo modelo de IA que promete superar todos menos o GPT 4 e a Microsoft já decidiu investir

Sem dúvida, após o seu lançamento, uma abundância de memes com celebridades exibindo comportamentos bizarros irá proliferar pela Internet. Por outro lado, esta inovação pode revelar-se vantajosa para os criadores de conteúdos e até facilitar a ressurreição de antepassados queridos através de meios digitais, entre outras aplicações potenciais.

É claro que a ferramenta também pode envolver um enorme risco em relação a questões éticas e seu uso indevido para se passar por outra pessoa ou espalhar desinformação.

Atualmente, o instrumento não está acessível para aplicação, portanto, é necessário aguardar maiores conhecimentos sobre suas capacidades antes de utilizá-lo. Nesse ínterim, pode-se ler um catálogo de conteúdo de vídeo postado online e maravilhar-se com a natureza avançada e a verossimilhança exibidas por esta inteligência sintética.

O Windows 10 e 11 vêm equipados com um recurso integrado encantador conhecido como “Magic Eraser”, que utiliza inteligência artificial para fins de edição de fotos. Esta ferramenta permite aos usuários remover facilmente elementos indesejados de suas imagens, como manchas ou objetos, simplesmente selecionando a área que desejam eliminar e observando enquanto a IA combina perfeitamente a imagem restante. O processo é fácil de usar e altamente eficaz, tornando-o uma escolha popular entre aqueles que procuram aprimorar suas fotografias digitais sem a necessidade de software adicional.

*️⃣ Link da fonte:

site oficial , documento ,