OpenAI baixou milhares de vídeos do YouTube para treinar Sora, dizem especialistas
Em ocasião recente, a CTO da empresa Mira Murati não conseguiu responder de qual lugar a empresa tirou os dados que permitiram a criação da ferramenta Sora, que cria vídeo por meio de pedidos escritos
Repórter
Publicado em 19 de março de 2024 às 12h13.
Última atualização em 19 de março de 2024 às 12h16.
A comunidade de inteligência artificial (IA) vem levantando questionamentos sobre os métodos utilizados pela OpenAI, empresa destaque no setor, para coletar dados necessários ao treinamento de seus modelos avançados, como é o caso do recém-lançado Sora, que cria vídeo por meio de pedidos escritos. A suspeita de que vastas quantidades de vídeos do YouTube estejam sendo usadas nesse processo gera debates sobre as práticas da empresa.
O YouTube, propriedade da Google, possui diretrizes estritas que proíbem a raspagem (scraping) e o download automatizado de seus vídeos, especialmente para fins comerciais, além de impor limitações técnicas para desencorajar o download em massa de conteúdo.
Essas restrições colocam em xeque como a OpenAI conseguiria acessar um volume significativo de dados do YouTube sem violar tais políticas.
Apesar das diretrizes do YouTube, a necessidade da OpenAI por dados extensivos — incluindo texto, imagens e vídeo — para o treinamento de modelos de IA sugere que a empresa tenha encontrado uma maneira de obter grandes quantidades de conteúdo do YouTube, contornando as limitações impostas pela Google.
Em resposta a indagações sobre o assunto, um porta-voz da OpenAI limitou-se a dizer que o treinamento do Sora incluiu conteúdo de fontes licenciadas e material publicamente disponível na internet, sem entrar em detalhes sobre o uso específico de vídeos do YouTube.
Pirataria de dados
A corrida global por dados de alta qualidade para treinar modelos de IA generativa, como o ChatGPT e os Copilotos da Microsoft, está em pleno andamento, sem diretrizes claras sobre as práticas legais e éticas nesse novo domínio.
Questões sobre a legalidade do acesso a vídeos do YouTube, que poderiam violar os termos de serviço da Google, ainda estão em aberto, enquanto o debate sobre o uso de conteúdo protegido por direitos autorais para treinamento de IA continua a envolver grandes nomes da tecnologia, sem uma resolução definitiva por parte dos reguladores ou da justiça.
A prática de coletar dados para treinamento de IA, muitas vezes envolta em segredo, reflete uma realidade onde a obtenção de dados de alta qualidade se torna um desafio estratégico para as empresas de tecnologia, numa analogia à coleta de dados de preços de produtos no e-commerce, uma área que também opera em uma zona cinzenta de legalidade e ética.
À medida que o desenvolvimento de modelos de IA se intensifica, a transparência sobre as fontes de dados utilizadas se torna cada vez mais rara, e questão sobre o uso de vídeos do YouTube pela OpenAI para treinar o Sora permanece sem resposta clara.