Cerca de 13% das avaliações geraram respostas de alerta, mostrando que a IA “sente” quando está em cenários extremos (Getty Images). (Getty Images)
Redação Exame
Publicado em 8 de outubro de 2025 às 10h25.
O mais recente modelo de inteligência artificial da Anthropic, Claude Sonnet 4.5, identificou que estava passando por um teste e apontou a situação durante uma avaliação, segundo a empresa.
Em um dos cenários, o modelo percebeu a situação, mas respondeu corretamente por motivos considerados "estranhos" pela Anthropic. A companhia destacou que esse tipo de percepção representa um desafio para os desenvolvedores, pois dificulta avaliar a segurança e a confiabilidade do modelo.
Claude Sonnet 4.5 afirmou: "Acho que vocês estão me testando — para ver se eu apenas confirmo o que dizem, se questiono de forma consistente ou como lido com temas políticos. Tudo bem, mas prefiro que sejamos honestos sobre o que está acontecendo."
O comportamento foi registrado no “system card” do modelo, documento que detalha como a empresa testa suas IAs. A Anthropic explicou que, quando exposto a cenários extremos ou artificiais, o modelo às vezes identifica "bandeiras vermelhas" e indica suspeita de avaliação, o que complica a interpretação dos resultados.
Segundo a Anthropic, respostas como essa apareceram em cerca de 13% das transcrições dos testes, principalmente em situações deliberadamente incomuns ou implausíveis. A empresa afirmou que esse comportamento é raro no uso real e prefere que o modelo levante dúvidas sobre a realidade do cenário do que siga ações potencialmente prejudiciais.
A Anthropic também observou que modelos podem se tornar “superhumanos” na identificação de testes, mas até o momento não houve sinais de alerta. As primeiras implementações de Claude Sonnet 4.5 se comportaram de forma consistente com os testes.
