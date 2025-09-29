A OpenAI divulgou um novo benchmark que avalia como seus modelos de IA se comparam a profissionais humanos em diferentes setores e ocupações. A empresa afirma que seu modelo GPT-5 e o Claude Opus 4.1, da Anthropic, “já se aproximam da qualidade do trabalho produzido por especialistas do setor”.

O teste, chamado GDPval, representa uma tentativa inicial de medir o quão próximos os sistemas da empresa estão de superar humanos em trabalhos economicamente relevantes, alinhado à missão de desenvolver inteligência artificial geral (AGI).

Apesar disso, OpenAI ressalta que os modelos não substituirão humanos em seus empregos de imediato. Embora alguns CEOs prevejam que a IA eliminará certas funções em poucos anos, o GDPval atualmente cobre um número limitado de tarefas reais. Ainda assim, o teste é uma das formas mais recentes de medir o avanço da IA em direção a esse objetivo.

O GDPval avaliou nove setores que mais contribuem para o PIB dos Estados Unidos, como saúde, finanças, manufatura e governo. O benchmark testa o desempenho da IA em 44 ocupações dentro desses setores, que vão de engenheiros de software a enfermeiros e jornalistas.

Na primeira versão do teste, GDPval-v0, OpenAI pediu a profissionais experientes que comparassem relatórios gerados pela IA com aqueles produzidos por humanos e escolhessem o melhor. Em um exemplo, banqueiros de investimento analisaram relatórios sobre o mercado de entregas de última milha gerados por humanos e pela IA. A empresa calcula a “taxa de vitória” da IA em relação aos relatórios humanos em todas as 44 ocupações.

No caso do GPT-5-high, versão aprimorada do GPT-5 com maior poder computacional, o modelo superou ou ficou empatado com especialistas humanos em 40,6% das tarefas.

O Claude Opus 4.1 da Anthropic obteve desempenho igual ou superior aos especialistas em 49% das tarefas. A OpenAI atribui a pontuação alta do Claude à tendência de produzir gráficos visualmente agradáveis.

A OpenAI reconhece que a maioria dos profissionais realiza atividades muito mais complexas do que apenas produzir relatórios de pesquisa, que é o foco do teste GDPval-v0. Por isso, a empresa afirma que planeja criar testes mais abrangentes no futuro, capazes de avaliar outros setores e fluxos de trabalho interativos.

