A comunidade de inteligência artificial (IA) vem levantando questionamentos sobre os métodos utilizados pela OpenAI, empresa destaque no setor, para coletar dados necessários ao treinamento de seus modelos avançados, como é o caso do recém-lançado Sora, que cria vídeo por meio de pedidos escritos. A suspeita de que vastas quantidades de vídeos do YouTube estejam sendo usadas nesse processo gera debates sobre as práticas da empresa.

O YouTube, propriedade da Google, possui diretrizes estritas que proíbem a raspagem (scraping) e o download automatizado de seus vídeos, especialmente para fins comerciais, além de impor limitações técnicas para desencorajar o download em massa de conteúdo.

Essas restrições colocam em xeque como a OpenAI conseguiria acessar um volume significativo de dados do YouTube sem violar tais políticas.

Apesar das diretrizes do YouTube, a necessidade da OpenAI por dados extensivos — incluindo texto, imagens e vídeo — para o treinamento de modelos de IA sugere que a empresa tenha encontrado uma maneira de obter grandes quantidades de conteúdo do YouTube, contornando as limitações impostas pela Google.

Em resposta a indagações sobre o assunto, um porta-voz da OpenAI limitou-se a dizer que o treinamento do Sora incluiu conteúdo de fontes licenciadas e material publicamente disponível na internet, sem entrar em detalhes sobre o uso específico de vídeos do YouTube.

Pirataria de dados

A corrida global por dados de alta qualidade para treinar modelos de IA generativa, como o ChatGPT e os Copilotos da Microsoft, está em pleno andamento, sem diretrizes claras sobre as práticas legais e éticas nesse novo domínio.

Questões sobre a legalidade do acesso a vídeos do YouTube, que poderiam violar os termos de serviço da Google, ainda estão em aberto, enquanto o debate sobre o uso de conteúdo protegido por direitos autorais para treinamento de IA continua a envolver grandes nomes da tecnologia, sem uma resolução definitiva por parte dos reguladores ou da justiça.

A prática de coletar dados para treinamento de IA, muitas vezes envolta em segredo, reflete uma realidade onde a obtenção de dados de alta qualidade se torna um desafio estratégico para as empresas de tecnologia, numa analogia à coleta de dados de preços de produtos no e-commerce, uma área que também opera em uma zona cinzenta de legalidade e ética.

À medida que o desenvolvimento de modelos de IA se intensifica, a transparência sobre as fontes de dados utilizadas se torna cada vez mais rara, e questão sobre o uso de vídeos do YouTube pela OpenAI para treinar o Sora permanece sem resposta clara.