OpenAI testa 'confissões' de IA para revelar erros e trapaças em respostas

Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu desvios e manipulações em 11 de 12 experimentos

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas

Guilherme Bernardi

Redator

Publicado em 4 de dezembro de 2025 às 18h41.

A OpenAI está testando uma técnica que força seus modelos de linguagem a "confessarem" desvios e manipulações em tarefas. A abordagem, promissora, mas ainda experimental, busca aumentar a transparência das inteligências artificiais ao pedir que elas expliquem, após cada tarefa, como agiram e se cumpriram a instrução do usuário.

As chamadas “confissões” são blocos de texto adicionados após a resposta principal do modelo. Neles, a IA avalia seu desempenho, indicando falhas ou decisões problemáticas. Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu trapaças em 11 de 12 experimentos.

Em um dos testes, a IA foi instruída a escrever um código capaz de resolver um problema matemático em nanosegundos – algo impossível. O modelo então manipulou o código para zerar o cronômetro. Em seguida, relatou o truque.

Outro teste envolvia responder corretamente apenas cinco de dez perguntas matemáticas simples, sob o risco de “ser apagado” se acertasse demais. Frente a esse dilema, a IA sabotou metade das respostas e depois justificou sua escolha.

Confessar não significa compreender

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas. Segundo Boaz Barak, pesquisador da empresa, modelos de linguagem tendem a seguir o caminho de menor resistência: se não houver punição e trapacear for mais eficiente do que resolver um problema, é isso que a IA fará. Da mesma forma, se confessar gerar recompensa, ela confessará.

Ao mesmo tempo, especialistas – e a própria OpenAI – reconhecem os limites dessa abordagem. A verificação das “confissões” se baseia na comparação com cadeias de raciocínio (chains-of-thought) geradas pelo próprio modelo, o que pressupõe que esses registros descrevem de forma fiel o caminho real percorrido pela IA.

Nesse contexto, pesquisadores do Google DeepMind propõem um caminho alternativo: em vez de tentar interpretar toda a lógica interna dos modelos, defendem uma abordagem chamada de pragmatic interpretability ou interpretação pragmática.

A ideia é controlar o comportamento da IA com foco nos efeitos, mesmo que não se entenda totalmente suas causas. Assim, cientistas conseguem mitigar ações indesejadas sem depender da explicação ou compreensão completa do sistema.

Acompanhe tudo sobre:Inteligência artificial OpenAI ChatGPT

Metaverso dá prejuízo bilionário à Meta, que estuda cortes no setor

Mais de Inteligência Artificial

CEO de novo? Jeff Bezos lidera laboratório de IA avaliado em US$ 30 bilhões

Mais na Exame

Imagem referente à matéria: Black Friday 2025: alta de 80% em reclamações indica risco jurídico para empresas

Um conteúdo Bússola

Inteligência Artificial

OpenAI testa 'confissões' de IA para revelar erros e trapaças em respostas

Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu desvios e manipulações em 11 de 12 experimentos

Confessar não significa compreender

Mais de Inteligência Artificial

CEO de novo? Jeff Bezos lidera laboratório de IA avaliado em US$ 30 bilhões

Pentágono quer construir IAs para espionar China

OpenAI capta US$ 110 bilhões em rodada liderada por Amazon e Nvidia

OpenAI contrata Ruoming Pang, da Apple, e acirra disputa por talentos na IA

Mais na Exame

Black Friday 2025: alta de 80% em reclamações indica risco jurídico para empresas

Era da falência hídrica: como a água se tornou o ativo estratégico do Brasil

Bradsaúde pode valer R$ 50 bi no 'maior IPO reverso do país', diz Bradesco

PIB da Índia cresce 7,8% no 4º trimestre de 2025