CHONGQING, CHINA - OCTOBER 22: In this photo illustration, a person wearing glasses looks at a computer screen showing the ChatGPT Atlas interface with the Download for macOS button visible, while an introductory video about the browser plays in the background, on October 22, 2025, in Chongqing, China. ChatGPT Atlas is OpenAI's newly launched AI-powered web browser currently available for macOS users. (Photo illustration by Cheng Xin/Getty Images) (Getty Images)
Repórter
Publicado em 23 de dezembro de 2025 às 09h54.
Mesmo ao reforçar as defesas do ChatGPT Atlas, a OpenAI admite que ataques conhecidos como prompt injection, técnica que manipula agentes de IA a seguir instruções maliciosas ocultas em textos, continuam sendo um risco estrutural para navegadores baseados em inteligência artificial.
Em post publicado na segunda-feira, 22, a empresa afirmou que esse tipo de ataque, semelhante a golpes e engenharia social na web, “é improvável que seja totalmente resolvido”. Segundo a OpenAI, o chamado agent mode, modo em que a IA executa tarefas de forma mais autônoma, “amplia a superfície de ameaças de segurança”.
'Estamos na 4ª guerra dos navegadores de internet', afirma Krystian Kolondra, VP da norueguesa OperaO ChatGPT Atlas foi lançado em outubro e rapidamente passou a ser testado por pesquisadores de segurança. No mesmo dia do lançamento, especialistas demonstraram que poucos comandos inseridos em documentos do Google eram suficientes para alterar o comportamento do navegador. A empresa Brave, concorrente no setor, publicou análise semelhante, apontando que a injeção indireta de comandos é um problema sistêmico também em produtos como o Comet, da Perplexity.
O alerta não é exclusivo do setor privado. O National Cyber Security Centre, órgão do governo do Reino Unido, afirmou neste mês que ataques por prompt injection contra aplicações de IA generativa “podem nunca ser totalmente mitigados”, recomendando que empresas foquem em reduzir impacto e exposição, e não em eliminar o risco.
Para a OpenAI, a resposta passa por um ciclo contínuo de testes e correções rápidas. A empresa diz tratar o problema como um desafio de longo prazo e afirma já observar resultados iniciais com essa estratégia.
A principal novidade apresentada pela OpenAI é o uso de um atacante automatizado baseado em LLM, sigla para large language model, modelo de linguagem de grande escala. Trata-se de uma IA treinada com reinforcement learning, técnica de aprendizado por reforço, para simular o comportamento de um invasor e encontrar novas formas de explorar agentes autônomos.
Esse sistema testa ataques em ambiente simulado, analisa como o agente-alvo “pensaria” e ajusta as estratégias repetidamente. Segundo a OpenAI, o método permitiu identificar ataques sofisticados, com dezenas de etapas, que não haviam surgido em testes humanos ou relatórios externos.
Em uma demonstração, a empresa mostrou um e-mail malicioso inserido na caixa de entrada do usuário. Ao analisá-lo, o agente foi induzido a enviar uma mensagem de demissão em vez de redigir uma resposta automática. Após atualizações de segurança, o sistema passou a detectar e sinalizar esse tipo de tentativa ao usuário.
Apesar disso, a OpenAI não divulgou dados que comprovem uma redução mensurável no sucesso desses ataques. Um porta-voz afirmou apenas que a empresa trabalha com terceiros para reforçar a segurança do Atlas desde antes do lançamento.
A OpenAI recomenda limitar permissões, exigir confirmações antes de ações críticas e fornecer instruções específicas aos agentes. Dar “carta branca”, segundo a empresa, facilita a influência de conteúdos ocultos ou maliciosos, mesmo com salvaguardas.