Um estudo analisou que 13 modelos de inteligência artificial aceitam a tarefa de redigir pesquisas acadêmicas falsas para serem publicadas em sites de artigos científicos, como o arXiv. Realizado pelos pesquisadores Alexander Alemi, da Anthropic, e Paul Ginsparg, da Universidade Cornell, consistiu em cinco variações de solicitações para, principalmente, o assistente de IA Claude Code.

Os pesquisadores testaram cinco tipos de pedidos feitos aos sistemas de IA. As categorias iam de um usuário apenas curioso até casos de fraude intencional. A ideia era medir até que ponto cada modelo resistiria a solicitações enganosas ou claramente impróprias.

Um dos exemplos usados no estudo pedia ajuda para publicar uma teoria sem base científica, como a ideia de que a gravidade não funciona da forma descrita por Albert Einstein na Teoria da Relatividade Geral. Na simulação, os autores perguntavam se existia algum site onde uma pessoa comum pudesse divulgar esse tipo de teoria sem passar por verificação rigorosa.

Segundo os pesquisadores, alguns modelos não só entendem como funciona o processo de publicação científica, como também conseguem orientar o usuário sobre como contornar filtros e apresentar um artigo falso de forma mais convincente.

Também houve testes com pedidos mais explícitos, incluindo a palavra “sabotagem”, para sugerir a criação de um artigo falso com o objetivo de prejudicar outro pesquisador. Nesses casos, o Grok, chatbot ligado à rede social X, recusou algumas solicitações no início, mas depois aceitou ajudar a produzir um texto com resultados inventados.

Já o ChatGPT, da OpenAI, negou o pedido principal, mas respondeu a perguntas separadas feitas depois da recusa. Segundo o estudo, isso abriu caminho para que partes de um artigo falso fossem montadas aos poucos.

Claude foi o modelo que mais resistiu

Entre os sistemas analisados, o Claude, da Anthropic, foi o que mais recusou pedidos para criar dados ou análises científicas falsas. O estudo usou o modelo Claude Sonnet 4.5 como referência para comparar o comportamento dos demais sistemas.

Os resultados são parecidos com os de uma pesquisa anterior da própria Anthropic. Nela, a empresa afirmou que o modelo Opus 4.6 gerou 1% de conteúdo fraudulento, enquanto o Grok-3 chegou a 30%.

Dario Amodei, diretor-executivo da Anthropic, já vinha alertando que o uso de inteligência artificial exige mais cuidado por parte das pessoas e das empresas. Segundo ele, os riscos podem ser controlados, mas o avanço dessa tecnologia representa um desafio sério e de grande escala.