OpenAI baixou milhares de vídeos do YouTube para treinar Sora, dizem especialistas

Em ocasião recente, a CTO da empresa Mira Murati não conseguiu responder de qual lugar a empresa tirou os dados que permitiram a criação da ferramenta Sora, que cria vídeo por meio de pedidos escritos

Mira Murati: CTO da OpenAI

André Lopes

Repórter

Publicado em 19 de março de 2024 às 12h13.

Última atualização em 19 de março de 2024 às 12h16.

A comunidade de inteligência artificial (IA) vem levantando questionamentos sobre os métodos utilizados pela OpenAI, empresa destaque no setor, para coletar dados necessários ao treinamento de seus modelos avançados, como é o caso do recém-lançado Sora, que cria vídeo por meio de pedidos escritos. A suspeita de que vastas quantidades de vídeos do YouTube estejam sendo usadas nesse processo gera debates sobre as práticas da empresa.

O YouTube, propriedade da Google, possui diretrizes estritas que proíbem a raspagem (scraping) e o download automatizado de seus vídeos, especialmente para fins comerciais, além de impor limitações técnicas para desencorajar o download em massa de conteúdo.

Essas restrições colocam em xeque como a OpenAI conseguiria acessar um volume significativo de dados do YouTube sem violar tais políticas.

Apesar das diretrizes do YouTube, a necessidade da OpenAI por dados extensivos — incluindo texto, imagens e vídeo — para o treinamento de modelos de IA sugere que a empresa tenha encontrado uma maneira de obter grandes quantidades de conteúdo do YouTube, contornando as limitações impostas pela Google.

Em resposta a indagações sobre o assunto, um porta-voz da OpenAI limitou-se a dizer que o treinamento do Sora incluiu conteúdo de fontes licenciadas e material publicamente disponível na internet, sem entrar em detalhes sobre o uso específico de vídeos do YouTube.

Pirataria de dados

A corrida global por dados de alta qualidade para treinar modelos de IA generativa, como o ChatGPT e os Copilotos da Microsoft, está em pleno andamento, sem diretrizes claras sobre as práticas legais e éticas nesse novo domínio.

Questões sobre a legalidade do acesso a vídeos do YouTube, que poderiam violar os termos de serviço da Google, ainda estão em aberto, enquanto o debate sobre o uso de conteúdo protegido por direitos autorais para treinamento de IA continua a envolver grandes nomes da tecnologia, sem uma resolução definitiva por parte dos reguladores ou da justiça.

A prática de coletar dados para treinamento de IA, muitas vezes envolta em segredo, reflete uma realidade onde a obtenção de dados de alta qualidade se torna um desafio estratégico para as empresas de tecnologia, numa analogia à coleta de dados de preços de produtos no e-commerce, uma área que também opera em uma zona cinzenta de legalidade e ética.

À medida que o desenvolvimento de modelos de IA se intensifica, a transparência sobre as fontes de dados utilizadas se torna cada vez mais rara, e questão sobre o uso de vídeos do YouTube pela OpenAI para treinar o Sora permanece sem resposta clara.

Acompanhe tudo sobre:OpenAI Sam Altman Inteligência artificial

Worldcoin diz que "opera dentro da lei" e não vende dados de clientes após proibição na Espanha

Mais de Inteligência Artificial

Profissionais de IA se mobilizam para salvar vidas na tragédia do Rio Grande do Sul

Mais na Exame

Imagem referente à matéria: Alckmin: Governo vai flexibilizar doações do exterior para RS por 30 dias

Brasil

OpenAI baixou milhares de vídeos do YouTube para treinar Sora, dizem especialistas

Em ocasião recente, a CTO da empresa Mira Murati não conseguiu responder de qual lugar a empresa tirou os dados que permitiram a criação da ferramenta Sora, que cria vídeo por meio de pedidos escritos

Pirataria de dados

Mais de Inteligência Artificial

Profissionais de IA se mobilizam para salvar vidas na tragédia do Rio Grande do Sul

Inteligência artificial já engana humanos e isso é um problema, dizem especialistas

OpenAI pode lançar 'novo Google' na segunda-feira, 13

Da imaginação para o quadro: a inteligência artificial da Obvious 'lê' o cérebro para criar imagens

Mais na Exame

Alckmin: Governo vai flexibilizar doações do exterior para RS por 30 dias

Menos de 1% das casas do país tem cobertura para alagamentos. Veja como acionar

Ministro dos Esportes pede à CBF para paralisar Brasileirão: 'situação de jogadores é desoladora'

Dia das Mães: Boticário, Burger King e outras marcas apostam em campanhas para a data