Nos últimos anos, diversas editoras e criadores de conteúdo, como jornais, escritores e fotógrafos, entraram com ações legais contra empresas de inteligência artificial (IA), acusando o uso indevido de seu material protegido por direitos autorais durante o treinamento dos modelos. A questão central dessas disputas é a facilidade com que as IAs conseguem gerar trechos exatos de conteúdo protegido.

Um dos casos mais notórios envolveu o jornal New York Times, que processou a OpenAI, alegando que o ChatGPT reproduziu passagens idênticas de suas reportagens. A defesa da empresa argumentou que isso seria um "comportamento marginal" e que a OpenAI estava trabalhando intensamente para resolver esse problema.

Mas será que isso realmente é algo raro, como a defesa sugere? E será que as empresas de IA já conseguiram resolver essa questão? Um estudo recente focado em livros – e não em artigos de jornais – oferece novas respostas sobre o tema. Os resultados da pesquisa, por um lado, reforçam os argumentos das editoras, mas também podem beneficiar as empresas de IA.

Realizado por cientistas da computação e acadêmicos de direito das universidades de Stanford, Cornell e West Virginia, o estudo analisou a capacidade de cinco modelos populares de IA – três desenvolvidos pela Meta, um pela Microsoft e outro pela EleutherAI – de reproduzir textos de livros do Books3, um banco de dados com livros usados para treinar modelos de linguagem. Muitos desses livros ainda estão sob direitos autorais.

Os pesquisadores descobriram que alguns modelos, como o Llama 3.1 70B, da Meta, tinham uma alta probabilidade de memorizar trechos de livros populares, como Harry Potter e a Pedra Filosofal. Em um caso, o modelo foi capaz de reproduzir 42% do conteúdo do livro, com uma taxa de acerto de 50% nas tentativas de gerar passagens exatas.

Isso levanta questões sérias sobre até que ponto as IAs estão realmente "memorizando" dados protegidos por direitos autorais e se isso é compatível com as alegações de que as IAs apenas "aprendem padrões de palavras" sem infringir a propriedade intelectual.

Embora o estudo tenha identificado uma significativa memorização em livros populares como 1984 e O Hobbit, ele também mostrou que o modelo Llama 3.1 70B teve dificuldades em reproduzir textos de livros menos conhecidos, como Sandman Slim, de Richard Kadrey, com apenas 0,13% do conteúdo sendo memorizado.

Esse achado sugere que livros mais discutidos têm maior chance de serem memorizados por modelos de IA, o que pode dificultar as disputas jurídicas, que agora podem ser analisadas caso a caso, em vez de serem julgadas de forma coletiva para todos os livros.

Além disso, o estudo trouxe à tona uma preocupação importante: o futuro do código aberto. Os pesquisadores alertaram que este estudo só foi possível porque tiveram acesso aos pesos dos modelos de IA. Sem esse acesso, seria muito mais difícil detectar a memorização de trechos protegidos por direitos autorais, especialmente em modelos de IA fechados, como os desenvolvidos pela OpenAI e Google.

Diante disso, surge o receio de que as empresas de tecnologia possam restringir o acesso a seus modelos de código aberto, dificultando a detecção de violação de direitos autorais e tornando mais desafiadora a realização de pesquisas semelhantes no futuro.