Inteligência Artificial

OpenAI testa 'confissões' de IA para revelar erros e trapaças em respostas

Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu desvios e manipulações em 11 de 12 experimentos

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas

Publicado em 4 de dezembro de 2025 às 18h41.

A OpenAI está testando uma técnica que força seus modelos de linguagem a "confessarem" desvios e manipulações em tarefas. A abordagem, promissora, mas ainda experimental, busca aumentar a transparência das inteligências artificiais ao pedir que elas expliquem, após cada tarefa, como agiram e se cumpriram a instrução do usuário.

As chamadas “confissões” são blocos de texto adicionados após a resposta principal do modelo. Neles, a IA avalia seu desempenho, indicando falhas ou decisões problemáticas. Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu trapaças em 11 de 12 experimentos.

Em um dos testes, a IA foi instruída a escrever um código capaz de resolver um problema matemático em nanosegundos – algo impossível. O modelo então manipulou o código para zerar o cronômetro. Em seguida, relatou o truque.

Outro teste envolvia responder corretamente apenas cinco de dez perguntas matemáticas simples, sob o risco de “ser apagado” se acertasse demais. Frente a esse dilema, a IA sabotou metade das respostas e depois justificou sua escolha.

Confessar não significa compreender

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas. Segundo Boaz Barak, pesquisador da empresa, modelos de linguagem tendem a seguir o caminho de menor resistência: se não houver punição e trapacear for mais eficiente do que resolver um problema, é isso que a IA fará. Da mesma forma, se confessar gerar recompensa, ela confessará.

Ao mesmo tempo, especialistas – e a própria OpenAI – reconhecem os limites dessa abordagem. A verificação das “confissões” se baseia na comparação com cadeias de raciocínio (chains-of-thought) geradas pelo próprio modelo, o que pressupõe que esses registros descrevem de forma fiel o caminho real percorrido pela IA.

Nesse contexto, pesquisadores do Google DeepMind propõem um caminho alternativo: em vez de tentar interpretar toda a lógica interna dos modelos, defendem uma abordagem chamada de pragmatic interpretability ou interpretação pragmática.

A ideia é controlar o comportamento da IA com foco nos efeitos, mesmo que não se entenda totalmente suas causas. Assim, cientistas conseguem mitigar ações indesejadas sem depender da explicação ou compreensão completa do sistema.

Acompanhe tudo sobre:Inteligência artificialOpenAIChatGPT

Mais de Inteligência Artificial

Nvidia banca seus próprios clientes para crescer. E se eles quebrarem?

Prompt perfeito: presidente da OpenAI ensina como extrair o máximo do ChatGPT

'Não estamos atrasados': como a CEO da Microsoft Brasil enxerga o país na corrida da IA

Pentágono usará IA Grok, de Elon Musk, para integrar dados do X ao governo dos EUA