Tecnologia

Como o Google venceu o Claude ao jogar Pokémon

A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada no jogo —, o Claude seguia travado no Monte Moon desde o fim de fevereiro.

Janaina Camargo
Janaina Camargo

Redatora na Exame

Publicado em 15 de abril de 2025 às 12h57.

Na última quinta-feira, 10, uma publicação viralizou no X (ex-Twitter), comparando o modelo de inteligência artificial Gemini, do Google, que supostamente estaria vencendo o Claude, da Anthropic, em uma disputa curiosa: jogar a trilogia do videogame Pokémon.

A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada no jogo —, o Claude seguia travado no Monte Moon desde o fim de fevereiro.

Após o post repercutir, os usuários recorreram ao Reddit para apontar que a "disputa" poderia não ter sido totalmente justa.

De acordo com as declarações, o Gemini contava com a ajuda de um minimapa personalizado, criado pelo desenvolvidor da transmissão realizada na Twitch, um recurso que ajudava o modelo a identificar "blocos" importantes no jogo e facilitava as decisões — algo que o Claude não tinha à disposição.

O caso reanimou discussões sobre os benchmarks utilizados para avaliar modelos de IA e o portal TechCrunch lembrou de dois episódios que já aconteceram em testes técnicos.

O primeiro caso destacado foi o da Anthropic, que obteve duas pontuações diferentes para o modelo Claude 3.7 Sonnet no benchmark SWE-bench Verified. Ele alcançou 62,3% de precisão, mas chegou a 70,3% quando usaram um "andaime personalizado", uma ferramenta extra criada pela empresa.

Já o segundo caso se trata da Meta, que ajustou uma versão do modelo Llama 4 Maverick para melhorar seu desempenho no teste LM Arena. A versão original do modelo teve uma pontuação significamente pior no mesmo teste.

Acompanhe tudo sobre:JogosInteligência artificialGoogle

Mais de Tecnologia

Grupo Smart Fit aposta em app único para expandir rede de estúdios

WhatsApp prepara recurso de segurança para menores no Brasil

Spotify vai vender livros físicos para competir com Amazon

EXCLUSIVO: Ministério de Minas e Energia foi invadido e espionado por grupo hacker asiático