Monalisa falando: IA do Alibaba cria vídeos com apenas uma foto

Sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista

EMO, do Alibaba: IA produz vídeos realistas a partir de uma foto e uma faixa de áudio

Redatora

Publicado em 1 de março de 2024 às 09h27.

O novo sistema de IA do Alibaba, chamado "EMO", abreviação de Emote Portrait Alive, cria vídeos realistas com cenas de conversas e música a partir de fotos. O sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista.

O sistema, descrito em um artigo de pesquisa publicado no arXiv, é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que correspondem de perto às nuances de uma faixa de áudio fornecida. No vídeo de apresentação da ferramenta, vemos um vídeo da atriz Audrey Hepburn cantando uma música de Ed Sheeran, e uma mulher caracterizada como a Monalisa entoando um single de Miley Cyrus -- e, mais tarde, o próprio quadro reproduzindo um discurso.

"Técnicas tradicionais frequentemente falham em capturar todo o espectro de expressões humanas e a singularidade dos estilos faciais individuais", disse o autor principal Linrui Tian no artigo. "Para resolver essas questões, propomos o EMO, um novo framework que utiliza uma abordagem de síntese direta de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais."

O sistema EMO emprega uma técnica de IA conhecida como modelo de difusão, que mostrou capacidade para gerar imagens sintéticas realistas. Os pesquisadores treinaram o modelo em um conjunto de dados de mais de 250 horas de vídeos de cabeças falantes selecionados de discursos, filmes, programas de TV e performances de canto.

Ao contrário de métodos anteriores que dependem de modelos de rosto 3D para aproximar os movimentos faciais, o EMO converte diretamente a forma de onda de áudio em frames de vídeo. Isso permite capturar movimentos sutis e peculiaridades específicas associadas à fala natural.

"Resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de última geração existentes em termos de expressividade e realismo", afirma o artigo.

No entanto, preocupações éticas permanecem sobre o uso potencial dessa tecnologia para impersonificar pessoas sem consentimento ou espalhar desinformação. Os pesquisadores afirmam que planejam explorar métodos para detectar vídeos sintéticos.

Acompanhe tudo sobre:Inteligência artificial Alibaba

Elon Musk processa OpenAI e Sam Altman por relação com Microsoft

Mais de Inteligência Artificial

OpenAI busca captação para elevar o valor da empresa para mais de US$ 100 bilhões

Mais na Exame

Imagem referente à matéria: O que é o Programa Brasil Semicondutores e sua importância para a Indústria 4.0

Um conteúdo Esfera Brasil

Inteligência Artificial

Monalisa falando: IA do Alibaba cria vídeos com apenas uma foto

Sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista

Mais de Inteligência Artificial

OpenAI busca captação para elevar o valor da empresa para mais de US$ 100 bilhões

Google Meet começa a liberar nova função de anotações automáticas com IA

Jornalistas venezuelanos recorrem a avatares de IA para evitar repressão do governo Maduro

Sam Altman apresenta "IA bomba atômica" para o governo dos EUA — o que acontece depois?

Mais na Exame

O que é o Programa Brasil Semicondutores e sua importância para a Indústria 4.0

Moraes bloqueia contas da Starlink no Brasil por falta de representante do X

Acordo prepara Austrália para receber refugiados climáticos de Tuvalu

Após quatro meses desde último relacionamento, namoro de Milei com ex-vedete rouba cena na Argentina