7 de março de 2024 às 13:07
O novo sistema de IA do Alibaba, chamado "EMO", abreviação de Emote Portrait Alive, cria vídeos realistas com cenas de conversas e música a partir de fotos.
O sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista.
No vídeo de apresentação da ferramenta, vemos um vídeo da atriz Audrey Hepburn cantando uma música de Ed Sheeran, e uma mulher caracterizada como a Monalisa entoando um single de Miley Cyrus.
"Técnicas tradicionais frequentemente falham em capturar todo o espectro de expressões humanas e a singularidade dos estilos faciais individuais", disse o autor principal Linrui Tian no artigo.
O sistema EMO emprega uma técnica de IA conhecida como modelo de difusão, que mostrou capacidade para gerar imagens sintéticas realistas.
Os pesquisadores treinaram o modelo em um conjunto de dados de mais de 250 horas de vídeos de cabeças falantes selecionados de discursos, filmes, programas de TV e performances de canto.
No entanto, preocupações éticas permanecem sobre o uso potencial dessa tecnologia para impersonificar pessoas sem consentimento ou espalhar desinformação.