OpenAI deletou dados e demitiu funcionários envolvidos em antigo projeto

Mais de 50 bilhões de palavras foram excluídas do código do ChatGPT durante processo movido por uma associação de autores americanos. O motivo foi esconder que a OpenAI pode ter usado livros de terceiros sem as devidas permissões

Sam Altman: executivo é o líder da OpenAI, desenvolvedora do ChatGPT (Win McNamee/Getty Images)

Laura Pancini

Repórter

Publicado em 8 de maio de 2024 às 11h53.

Última atualização em 8 de maio de 2024 às 11h59.

Tudo sobreAcompanhe tudo sobreInteligência artificial

Saiba mais

Documentos divulgados em um novo processo judicial indicam que a OpenAI pode ter utilizado mais de 100.000 livros para treinar o modelo GPT-3, violando os direitos autorais de autores e editoras. A Authors Guild, associação de escritores americanos, é quem move o processo, e alega que a desenvolvedora do ChatGPT chegou a destruir os conjuntos de dados e demitir os funcionários envolvidos no projeto.

Os dados, descritos como "books1" e "books2", continham cerca de 50 bilhões de palavras e foram excluídos pela empresa quando o processo já estava em andamento. Para referência, considere que a Bíblia tem entre 750.000 a 800.000 palavras.

Metódico e cientificamente aprimorado: veja a rotina do bilionário Sam Altman

Entenda o processo

De início, a OpenAI resistiu em fornecer detalhes, citando confidencialidade, antes de admitir a exclusão dos dados, que, de acordo com um white paper de 2020, representavam 16% dos dados utilizados para treinar o GPT-3.

Os pesquisadores responsáveis pela criação desses conjuntos de dados já não estão mais empregados na OpenAI, e a empresa tem lutado nos tribunais para manter suas identidades (e detalhes sobre os conjuntos de dados) em sigilo. Essa tentativa, no entanto, enfrenta forte oposição do Authors Guild, que argumenta que o público tem o direito de estar informado sobre estas práticas.

A OpenAI afirmou que os modelos atuais, incluindo o ChatGPT e outras APIs, não foram desenvolvidos usando esses conjuntos de dados controversos. Segundo a empresa, o "books1" e o "books2" foram utilizados pela última vez em 2021 e excluídos no ano seguinte devido à falta de uso.

Enquanto enfrenta esse processo (e outro movido por Elon Musk), a OpenAI já fechou seis parcerias com jornais do mundo todo para treinar seus modelos de IA de forma responsável. Associated Press dos EUA, Axel Springer da Alemanha, Le Monde da França, Prisa Media da Espanha e, mais recentemente, a publicação inglesa Financial Times. Os termos financeiros não foram revelados.

Microsoft está desenvolvendo o próprio modelo de IA — para provar que não precisa da OpenAI Meta divulga novas ferramentas de inteligência artificial para anunciantes “Me ouço em todo lugar”: ela teve a voz vendida como se fosse de uma inteligência artificial

Acompanhe tudo sobre:Inteligência artificial Sam Altman OpenAI

EUA quer limitar acesso da China à inteligência artificial, diz Reuters

Mais de Inteligência Artificial

ChatGPT recebe 1 milhão de perguntas semanais sobre notícias locais, diz OpenAI

Mais na Exame

Imagem referente à matéria: Petróleo fecha em baixa de mais de 10% após oscilar abaixo dos US$ 100

Mercados

Inteligência Artificial

OpenAI deletou dados e demitiu funcionários envolvidos em antigo projeto

Mais de 50 bilhões de palavras foram excluídas do código do ChatGPT durante processo movido por uma associação de autores americanos. O motivo foi esconder que a OpenAI pode ter usado livros de terceiros sem as devidas permissões

Entenda o processo

Mais de Inteligência Artificial

ChatGPT recebe 1 milhão de perguntas semanais sobre notícias locais, diz OpenAI

O que muda quando CEOs de IA usam a tecnologia até fora do trabalho

Treinadores de IA: Pokémon Go vai usar dados de jogadores para ensinar robôs de entrega

“Agentes de IA são o novo computador”, diz CEO da Nvidia

Mais na Exame

Petróleo fecha em baixa de mais de 10% após oscilar abaixo dos US$ 100

Danone assina compra da marca Huel e avança em mercado bilionário de nutrição funcional

BBB 26: o jogo virou e favorito pode sair neste Paredão, dizem pesquisas

'Falta prioridade para avançar com plano de fertilizantes', diz Tereza Cristina