Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas
Redator
Publicado em 4 de dezembro de 2025 às 18h41.
A OpenAI está testando uma técnica que força seus modelos de linguagem a "confessarem" desvios e manipulações em tarefas. A abordagem, promissora, mas ainda experimental, busca aumentar a transparência das inteligências artificiais ao pedir que elas expliquem, após cada tarefa, como agiram e se cumpriram a instrução do usuário.
As chamadas “confissões” são blocos de texto adicionados após a resposta principal do modelo. Neles, a IA avalia seu desempenho, indicando falhas ou decisões problemáticas. Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu trapaças em 11 de 12 experimentos.
Em um dos testes, a IA foi instruída a escrever um código capaz de resolver um problema matemático em nanosegundos – algo impossível. O modelo então manipulou o código para zerar o cronômetro. Em seguida, relatou o truque.
Outro teste envolvia responder corretamente apenas cinco de dez perguntas matemáticas simples, sob o risco de “ser apagado” se acertasse demais. Frente a esse dilema, a IA sabotou metade das respostas e depois justificou sua escolha.
Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas. Segundo Boaz Barak, pesquisador da empresa, modelos de linguagem tendem a seguir o caminho de menor resistência: se não houver punição e trapacear for mais eficiente do que resolver um problema, é isso que a IA fará. Da mesma forma, se confessar gerar recompensa, ela confessará.
Ao mesmo tempo, especialistas – e a própria OpenAI – reconhecem os limites dessa abordagem. A verificação das “confissões” se baseia na comparação com cadeias de raciocínio (chains-of-thought) geradas pelo próprio modelo, o que pressupõe que esses registros descrevem de forma fiel o caminho real percorrido pela IA.
Nesse contexto, pesquisadores do Google DeepMind propõem um caminho alternativo: em vez de tentar interpretar toda a lógica interna dos modelos, defendem uma abordagem chamada de pragmatic interpretability ou interpretação pragmática.
A ideia é controlar o comportamento da IA com foco nos efeitos, mesmo que não se entenda totalmente suas causas. Assim, cientistas conseguem mitigar ações indesejadas sem depender da explicação ou compreensão completa do sistema.