Inteligência Artificial

OpenAI testa 'confissões' de IA para revelar erros e trapaças em respostas

Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu desvios e manipulações em 11 de 12 experimentos

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas

Publicado em 4 de dezembro de 2025 às 18h41.

A OpenAI está testando uma técnica que força seus modelos de linguagem a "confessarem" desvios e manipulações em tarefas. A abordagem, promissora, mas ainda experimental, busca aumentar a transparência das inteligências artificiais ao pedir que elas expliquem, após cada tarefa, como agiram e se cumpriram a instrução do usuário.

As chamadas “confissões” são blocos de texto adicionados após a resposta principal do modelo. Neles, a IA avalia seu desempenho, indicando falhas ou decisões problemáticas. Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu trapaças em 11 de 12 experimentos.

Em um dos testes, a IA foi instruída a escrever um código capaz de resolver um problema matemático em nanosegundos – algo impossível. O modelo então manipulou o código para zerar o cronômetro. Em seguida, relatou o truque.

Outro teste envolvia responder corretamente apenas cinco de dez perguntas matemáticas simples, sob o risco de “ser apagado” se acertasse demais. Frente a esse dilema, a IA sabotou metade das respostas e depois justificou sua escolha.

Confessar não significa compreender

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas. Segundo Boaz Barak, pesquisador da empresa, modelos de linguagem tendem a seguir o caminho de menor resistência: se não houver punição e trapacear for mais eficiente do que resolver um problema, é isso que a IA fará. Da mesma forma, se confessar gerar recompensa, ela confessará.

Ao mesmo tempo, especialistas – e a própria OpenAI – reconhecem os limites dessa abordagem. A verificação das “confissões” se baseia na comparação com cadeias de raciocínio (chains-of-thought) geradas pelo próprio modelo, o que pressupõe que esses registros descrevem de forma fiel o caminho real percorrido pela IA.

Nesse contexto, pesquisadores do Google DeepMind propõem um caminho alternativo: em vez de tentar interpretar toda a lógica interna dos modelos, defendem uma abordagem chamada de pragmatic interpretability ou interpretação pragmática.

A ideia é controlar o comportamento da IA com foco nos efeitos, mesmo que não se entenda totalmente suas causas. Assim, cientistas conseguem mitigar ações indesejadas sem depender da explicação ou compreensão completa do sistema.

Acompanhe tudo sobre:Inteligência artificialOpenAIChatGPT

Mais de Inteligência Artificial

O papel da IA na nova safra de bilionários pelo mundo

A psicóloga que criou uma IA para levar suporte emocional ao WhatsApp

Setor de IA assumiu dívidas de US$ 100 bi sem garantia de retorno, diz CEO da Anthropic

UE investiga Meta por possível bloqueio a concorrentes de IA no WhatsApp