Contents

Transforme sua foto em fala ou música com a IA revolucionária do Alibaba!

/images/9c9201332db8c1b2b0a576f95160084c668a5bf602e7f9c7f04923c6d49ee695.jpg Fazer a Mona Lisa falar agora é brincadeira de criança © Alibaba

Não podemos mais parar a IA. O grupo chinês Ali Baba apresentou recentemente seu novo modelo de inteligência artificial apelidado de “EMO”. Este último permite animar uma foto com um realismo impressionante.

Depois disso, surgiu um desenvolvimento inovador em inteligência artificial que pode dar origem a inúmeros desafios. Em 27 de fevereiro de 2024, foi relatado em uma publicação acadêmica que uma equipe do Alibaba, uma organização proeminente com propriedade do popular mercado online, revelou seu modelo de geração de vídeo EMO. Este sistema avançado possui a capacidade de imbuir imagens estáticas de movimento e fala, abrindo possibilidades interessantes para a criação de conteúdo multimídia e, ao mesmo tempo, levantando preocupações sobre o potencial uso indevido dessa tecnologia.

Faça qualquer um dizer (e cantar) qualquer coisa

Utilizando uma abordagem inovadora que ignora a necessidade de modelos 3D intermediários ou pontos de referência faciais, o EMO é capaz de gerar fotografias altamente realistas com fala ou canto, caracterizadas por movimentos faciais precisos e sincronização labial detalhada.

Twitter

O moinho EMO permite aos usuários manipular imagens de diversas maneiras, como fazer uma pessoa falecida falar ou transformar uma imagem em outra cena totalmente diferente. Por exemplo, uma fotografia de Audrey Hepburn pode ser transformada nela cantando uma música de Ed Sheeran. Da mesma forma, o software também pode alterar uma imagem de Leonardo DiCaprio e fazer com que ele sincronize os lábios com uma música do Eminem. Além disso, a tecnologia não se limita a fotos reais, mas também se estende a ilustrações desenhadas à mão ou pintadas. Na verdade, o Alibaba demonstrou suas capacidades ao fazer com que a Mona Lisa recitasse um monólogo de Shakespeare enquanto expressava as emoções correspondentes em seu rosto.

Uma arma de desinformação massiva?

Para desenvolver o EMO, os investigadores criaram um extenso conjunto de dados audiovisuais contendo mais de 250 horas de material e aproximadamente 150 milhões de imagens, segundo o relatório. Os autores dos avanços mais recentes na tecnologia EMO observam que o componente de áudio contém dados valiosos relativos às expressões faciais, o que permite potencialmente a geração de numerosos movimentos faciais. No entanto, este processo apresenta desafios significativos devido à tendência de alguns modelos de difusão se tornarem distorcidos durante a tradução dos movimentos faciais.

Na verdade, após uma inspeção mais detalhada, podemos discernir certas imperfeições no resultado, o que pode suscitar sentimentos de desconforto. No entanto, considerando que esta é apenas uma iteração preliminar da tecnologia, os resultados são simplesmente surpreendentes… e um tanto preocupantes. A capacidade de coagir os indivíduos a proferirem qualquer declaração à vontade, apenas através do aproveitamento de uma representação visual de qualidade adequada, tem o potencial de exercer desinformação em grande escala, especialmente se tal manipulação se tornar ainda mais acessível.

/images/7c7d1dbb8435e2d1a3c67fd237a79082d95168115bd1de1ba2e9782b624b608a.jpg Para descobrir 30 de agosto de 2023 às 09h00 Comparações de serviços

Fonte: Arxviv – Grupo Alibaba

*️⃣ Link da fonte:

Twitter tweet , para fazer a falecida atriz cantar Ed Sheeran , Também não há problema , fazer com que a Mona Lisa declare um monólogo de Shakespeare , Grupo Arxviv-Alibaba ,