OpenAI baixou milhares de vídeos do YouTube para treinar Sora, dizem especialistas

Em ocasião recente, a CTO da empresa Mira Murati não conseguiu responder de qual lugar a empresa tirou os dados que permitiram a criação da ferramenta Sora, que cria vídeo por meio de pedidos escritos

Mira Murati: CTO da OpenAI (Eugene Gologursky/Getty Images)

André Lopes

Repórter

Publicado em 19 de março de 2024 às 12h13.

Última atualização em 19 de março de 2024 às 12h16.

A comunidade de inteligência artificial (IA) vem levantando questionamentos sobre os métodos utilizados pela OpenAI, empresa destaque no setor, para coletar dados necessários ao treinamento de seus modelos avançados, como é o caso do recém-lançado Sora, que cria vídeo por meio de pedidos escritos. A suspeita de que vastas quantidades de vídeos do YouTube estejam sendo usadas nesse processo gera debates sobre as práticas da empresa.

O YouTube, propriedade da Google, possui diretrizes estritas que proíbem a raspagem (scraping) e o download automatizado de seus vídeos, especialmente para fins comerciais, além de impor limitações técnicas para desencorajar o download em massa de conteúdo.

Essas restrições colocam em xeque como a OpenAI conseguiria acessar um volume significativo de dados do YouTube sem violar tais políticas.

Apesar das diretrizes do YouTube, a necessidade da OpenAI por dados extensivos — incluindo texto, imagens e vídeo — para o treinamento de modelos de IA sugere que a empresa tenha encontrado uma maneira de obter grandes quantidades de conteúdo do YouTube, contornando as limitações impostas pela Google.

Em resposta a indagações sobre o assunto, um porta-voz da OpenAI limitou-se a dizer que o treinamento do Sora incluiu conteúdo de fontes licenciadas e material publicamente disponível na internet, sem entrar em detalhes sobre o uso específico de vídeos do YouTube.

Pirataria de dados

A corrida global por dados de alta qualidade para treinar modelos de IA generativa, como o ChatGPT e os Copilotos da Microsoft, está em pleno andamento, sem diretrizes claras sobre as práticas legais e éticas nesse novo domínio.

Questões sobre a legalidade do acesso a vídeos do YouTube, que poderiam violar os termos de serviço da Google, ainda estão em aberto, enquanto o debate sobre o uso de conteúdo protegido por direitos autorais para treinamento de IA continua a envolver grandes nomes da tecnologia, sem uma resolução definitiva por parte dos reguladores ou da justiça.

A prática de coletar dados para treinamento de IA, muitas vezes envolta em segredo, reflete uma realidade onde a obtenção de dados de alta qualidade se torna um desafio estratégico para as empresas de tecnologia, numa analogia à coleta de dados de preços de produtos no e-commerce, uma área que também opera em uma zona cinzenta de legalidade e ética.

À medida que o desenvolvimento de modelos de IA se intensifica, a transparência sobre as fontes de dados utilizadas se torna cada vez mais rara, e questão sobre o uso de vídeos do YouTube pela OpenAI para treinar o Sora permanece sem resposta clara.

Acompanhe tudo sobre:OpenAI Sam Altman Inteligência artificial

Worldcoin diz que "opera dentro da lei" e não vende dados de clientes após proibição na Espanha

Mais de Inteligência Artificial

5 teorias malucas para explicar o "Grande Apagão Cibernético"

Mais na Exame

Imagem referente à matéria: Detentos fazem rebelião e incendeiam presídio em Franco da Rocha, na Grande SP

Brasil

Inteligência Artificial

OpenAI baixou milhares de vídeos do YouTube para treinar Sora, dizem especialistas

Em ocasião recente, a CTO da empresa Mira Murati não conseguiu responder de qual lugar a empresa tirou os dados que permitiram a criação da ferramenta Sora, que cria vídeo por meio de pedidos escritos

Pirataria de dados

Mais de Inteligência Artificial

5 teorias malucas para explicar o "Grande Apagão Cibernético"

Loft apresenta simulador com IA no WhatsApp que encurta prazo de financiamento de 60 para 30 dias

OpenAI lança GPT-4o Mini, um modelo mais leve e acessível para desenvolvedores

O Brasil entre a inovação e a colonização digital

Mais na Exame

Detentos fazem rebelião e incendeiam presídio em Franco da Rocha, na Grande SP

Campanha de Biden ignora críticas e afirma que ele voltará à estrada em breve

5 teorias malucas para explicar o "Grande Apagão Cibernético"

Como a IA pode ajudar a entender e atender clientes?