Acompanhe:

O novo sistema de IA do Alibaba, chamado "EMO", abreviação de Emote Portrait Alive, cria vídeos realistas com cenas de conversas e música a partir de fotos. O sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista.

O sistema, descrito em um artigo de pesquisa publicado no arXiv, é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que correspondem de perto às nuances de uma faixa de áudio fornecida. No vídeo de apresentação da ferramenta, vemos um vídeo da atriz Audrey Hepburn cantando uma música de Ed Sheeran, e uma mulher caracterizada como a Monalisa entoando um single de Miley Cyrus -- e, mais tarde, o próprio quadro reproduzindo um discurso.

"Técnicas tradicionais frequentemente falham em capturar todo o espectro de expressões humanas e a singularidade dos estilos faciais individuais", disse o autor principal Linrui Tian no artigo. "Para resolver essas questões, propomos o EMO, um novo framework que utiliza uma abordagem de síntese direta de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais."

O sistema EMO emprega uma técnica de IA conhecida como modelo de difusão, que mostrou capacidade para gerar imagens sintéticas realistas. Os pesquisadores treinaram o modelo em um conjunto de dados de mais de 250 horas de vídeos de cabeças falantes selecionados de discursos, filmes, programas de TV e performances de canto.

Ao contrário de métodos anteriores que dependem de modelos de rosto 3D para aproximar os movimentos faciais, o EMO converte diretamente a forma de onda de áudio em frames de vídeo. Isso permite capturar movimentos sutis e peculiaridades específicas associadas à fala natural.

"Resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de última geração existentes em termos de expressividade e realismo", afirma o artigo.

No entanto, preocupações éticas permanecem sobre o uso potencial dessa tecnologia para impersonificar pessoas sem consentimento ou espalhar desinformação. Os pesquisadores afirmam que planejam explorar métodos para detectar vídeos sintéticos.

Créditos

Últimas Notícias

Ver mais
Assistentes financeiros digitais são a próxima inovação da união entre blockchain e IA
Future of Money

Assistentes financeiros digitais são a próxima inovação da união entre blockchain e IA

Há um dia

Integração de IA e blockchain impulsiona revolução em finanças, tecnologias e empresas
Future of Money

Integração de IA e blockchain impulsiona revolução em finanças, tecnologias e empresas

Há um dia

7 Tendências no Mundo do Trabalho Pós Inteligência Artificial
seloCarreira

7 Tendências no Mundo do Trabalho Pós Inteligência Artificial

Há 2 dias

Regulação da IA precisa proteger direitos fundamentais, diz Barroso
Inteligência Artificial

Regulação da IA precisa proteger direitos fundamentais, diz Barroso

Há 2 dias

Continua após a publicidade
icon

Branded contents

Ver mais

Conteúdos de marca produzidos pelo time de EXAME Solutions

Exame.com

Acompanhe as últimas notícias e atualizações, aqui na Exame.

Leia mais