Monalisa falando: IA do Alibaba cria vídeos com apenas uma foto
Sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista
Redatora
Publicado em 1 de março de 2024 às 09h27.
O novo sistema de IA do Alibaba, chamado "EMO", abreviação de Emote Portrait Alive, cria vídeos realistas com cenas de conversas e música a partir de fotos. O sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista.
O sistema, descrito em um artigo de pesquisa publicado no arXiv, é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que correspondem de perto às nuances de uma faixa de áudio fornecida. No vídeo de apresentação da ferramenta, vemos um vídeo da atriz Audrey Hepburn cantando uma música de Ed Sheeran, e uma mulher caracterizada como a Monalisa entoando um single de Miley Cyrus -- e, mais tarde, o próprio quadro reproduzindo um discurso.
"Técnicas tradicionais frequentemente falham em capturar todo o espectro de expressões humanas e a singularidade dos estilos faciais individuais", disse o autor principal Linrui Tian no artigo. "Para resolver essas questões, propomos o EMO, um novo framework que utiliza uma abordagem de síntese direta de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais."
O sistema EMO emprega uma técnica de IA conhecida como modelo de difusão, que mostrou capacidade para gerar imagens sintéticas realistas. Os pesquisadores treinaram o modelo em um conjunto de dados de mais de 250 horas de vídeos de cabeças falantes selecionados de discursos, filmes, programas de TV e performances de canto.
Ao contrário de métodos anteriores que dependem de modelos de rosto 3D para aproximar os movimentos faciais, o EMO converte diretamente a forma de onda de áudio em frames de vídeo. Isso permite capturar movimentos sutis e peculiaridades específicas associadas à fala natural.
"Resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de última geração existentes em termos de expressividade e realismo", afirma o artigo.
No entanto, preocupações éticas permanecem sobre o uso potencial dessa tecnologia para impersonificar pessoas sem consentimento ou espalhar desinformação. Os pesquisadores afirmam que planejam explorar métodos para detectar vídeos sintéticos.