OpenAI baixou milhares de vídeos do YouTube para treinar Sora, dizem especialistas

Em ocasião recente, a CTO da empresa Mira Murati não conseguiu responder de qual lugar a empresa tirou os dados que permitiram a criação da ferramenta Sora, que cria vídeo por meio de pedidos escritos

Mira Murati: CTO da OpenAI (Eugene Gologursky/Getty Images)

André Lopes

Repórter

Publicado em 19 de março de 2024 às 12h13.

Última atualização em 19 de março de 2024 às 12h16.

A comunidade de inteligência artificial (IA) vem levantando questionamentos sobre os métodos utilizados pela OpenAI, empresa destaque no setor, para coletar dados necessários ao treinamento de seus modelos avançados, como é o caso do recém-lançado Sora, que cria vídeo por meio de pedidos escritos. A suspeita de que vastas quantidades de vídeos do YouTube estejam sendo usadas nesse processo gera debates sobre as práticas da empresa.

O YouTube, propriedade da Google, possui diretrizes estritas que proíbem a raspagem (scraping) e o download automatizado de seus vídeos, especialmente para fins comerciais, além de impor limitações técnicas para desencorajar o download em massa de conteúdo.

Essas restrições colocam em xeque como a OpenAI conseguiria acessar um volume significativo de dados do YouTube sem violar tais políticas.

Apesar das diretrizes do YouTube, a necessidade da OpenAI por dados extensivos — incluindo texto, imagens e vídeo — para o treinamento de modelos de IA sugere que a empresa tenha encontrado uma maneira de obter grandes quantidades de conteúdo do YouTube, contornando as limitações impostas pela Google.

Em resposta a indagações sobre o assunto, um porta-voz da OpenAI limitou-se a dizer que o treinamento do Sora incluiu conteúdo de fontes licenciadas e material publicamente disponível na internet, sem entrar em detalhes sobre o uso específico de vídeos do YouTube.

Pirataria de dados

A corrida global por dados de alta qualidade para treinar modelos de IA generativa, como o ChatGPT e os Copilotos da Microsoft, está em pleno andamento, sem diretrizes claras sobre as práticas legais e éticas nesse novo domínio.

Questões sobre a legalidade do acesso a vídeos do YouTube, que poderiam violar os termos de serviço da Google, ainda estão em aberto, enquanto o debate sobre o uso de conteúdo protegido por direitos autorais para treinamento de IA continua a envolver grandes nomes da tecnologia, sem uma resolução definitiva por parte dos reguladores ou da justiça.

A prática de coletar dados para treinamento de IA, muitas vezes envolta em segredo, reflete uma realidade onde a obtenção de dados de alta qualidade se torna um desafio estratégico para as empresas de tecnologia, numa analogia à coleta de dados de preços de produtos no e-commerce, uma área que também opera em uma zona cinzenta de legalidade e ética.

À medida que o desenvolvimento de modelos de IA se intensifica, a transparência sobre as fontes de dados utilizadas se torna cada vez mais rara, e questão sobre o uso de vídeos do YouTube pela OpenAI para treinar o Sora permanece sem resposta clara.

Acompanhe tudo sobre:OpenAI Sam Altman Inteligência artificial

Worldcoin diz que "opera dentro da lei" e não vende dados de clientes após proibição na Espanha

Mais de Inteligência Artificial

Índia recebe cúpula global sobre impacto da IA

Mais na Exame

Imagem referente à matéria: Três comandos do ChatGPT para ser promovido no trabalho

Carreira

Inteligência Artificial

OpenAI baixou milhares de vídeos do YouTube para treinar Sora, dizem especialistas

Em ocasião recente, a CTO da empresa Mira Murati não conseguiu responder de qual lugar a empresa tirou os dados que permitiram a criação da ferramenta Sora, que cria vídeo por meio de pedidos escritos

Pirataria de dados

Mais de Inteligência Artificial

Índia recebe cúpula global sobre impacto da IA

O paradoxo da IA que está tirando US$ 1,5 trilhão das big techs

Plataforma usa IA para mapear e-mails e perfilar famosos e milionários ligados a Jeffrey Epstein

Baidu integra OpenClaw ao app e amplia aposta em IA

Mais na Exame

Três comandos do ChatGPT para ser promovido no trabalho

Jair Bolsonaro passou mal e está sendo monitorado, diz Carlos Bolsonaro

‘Lamento que meu país tenha considerado se opor ao Mercosul’, diz chefe do banco central da França

Apuração do Carnaval 2026 do Rio: data, horário, regras e onde assistir ao vivo