Vídeo gerado no Seedance: o tradicional teste de benchmark do Will Smith comendo espaguete
Repórter
Publicado em 11 de fevereiro de 2026 às 16h25.
Última atualização em 11 de fevereiro de 2026 às 16h28.
A nova aposta da ByteDance, empresa chinesa dona do TikTok, deixa claro para onde a indústria de tecnologia está olhando: um futuro em que vídeos realistas podem ser criados do zero, sem câmeras, atores ou equipes de filmagem.
Com o teste com ares de lançamento do Seedance 2.0, seu modelo de inteligência artificial para geração de vídeo, a companhia inaugura uma etapa em que o conteúdo audiovisual pode nascer inteiramente de comandos de texto.
A ferramenta permite criar cenas cinematográficas a partir de descrições escritas combinadas com até 12 referências em áudio, imagem ou vídeo. O resultado pode ser exportado em resolução 2K, e a empresa afirma que o modelo é 30% mais rápido que o Seedance 1.5, versão anterior.
O movimento posiciona a ByteDance em confronto direto com o Sora, modelo de vídeo da OpenAI, e reforça a escalada da corrida por modelos generativos de vídeo, um dos campos mais complexos da IA atual.
Mais do que qualidade visual, o discurso da empresa gira em torno de controle. Ao permitir múltiplas referências no processo de criação, o Seedance 2.0 transforma o usuário em uma espécie de diretor e editor simultaneamente, ajustando estilo, enquadramento e ritmo narrativo. A promessa é reduzir inconsistências entre quadros e oferecer previsibilidade estética, um dos principais gargalos da geração automática de vídeo.
Entre os testes que ajudam a medir essa evolução está o chamado benchmark do "Will Smith comendo espaguete". A cena, que se tornou viral em 2023 ao expor as limitações dos primeiros modelos de vídeo — com movimentos artificiais, mãos deformadas e inconsistências faciais — passou a funcionar como um termômetro informal de realismo.
Segundo relatos e demonstrações iniciais, o Seedance 2.0 apresenta desempenho sólido nesse tipo de simulação, com melhor fluidez de movimentos e maior consistência entre quadros.
Por trás da tecnologia, há uma lógica estratégica. A ByteDance já opera uma das infraestruturas de recomendação e processamento audiovisual mais sofisticadas do mundo, sustentando o TikTok com algoritmos que analisam bilhões de interações diárias. Expandir essa base para a criação de conteúdo sintético não é apenas evolução técnica; é um passo natural dentro de um ecossistema que controla produção, distribuição e monetização.
Um dos recursos destacados é o multi-lens storytelling, expressão em inglês que pode ser traduzida como "narrativa com múltiplas lentes". A funcionalidade converte um único comando de texto em diversas cenas conectadas, mantendo consistência de personagens, iluminação e ambientação.
Na prática, o sistema simula linguagem cinematográfica com cortes e enquadramentos variados, preservando continuidade visual. Também há melhorias na fluidez dos movimentos de câmera e ferramentas para edição pontual em trechos específicos do vídeo, ampliando o chamado controle fino sobre o resultado final.
Inicialmente, o modelo está disponível para usuários selecionados do Jimeng AI, aplicativo de geração de vídeo da própria ByteDance. A empresa ainda não divulgou dados públicos sobre custos operacionais ou planos de expansão global.