IA avançou tão rápido que empresas terão que recriar teste que medem desempenho dos chatbots

Empresas como OpenAI, Microsoft, Meta e Anthropic aceleram a criação de benchmarks para avaliar agentes autônomos de IA, que já ultrapassam métricas anteriores

Serviços de inteligência artificial: como medir a evolução dos modelos de linguagem? (Jonathan Raa/Getty Images)

Repórter

Publicado em 11 de novembro de 2024 às 13h44.

Com o avanço rápido das tecnologias de inteligência artificial, líderes do setor, incluindo OpenAI, Microsoft, Meta e Anthropic, estão criando novos parâmetros de avaliação para acompanhar as habilidades de modelos que operam cada vez mais próximos da IA autônoma, capaz de realizar tarefas complexas de maneira independente de humanos.

O desafio dessas empresas é desenvolver métricas que acompanhem essa evolução e possibilitem medir com precisão o desempenho e a capacidade desses sistemas.

A aceleração da indústria de IA tem levado os modelos mais recentes a atingirem até 90% de precisão nos testes padrões, ou benchmarks, destacando a urgência de novos métodos de avaliação. Esses benchmarks tradicionais, que contam com questões de múltipla escolha para testar o senso comum e o conhecimento geral, já não capturam a complexidade crescente dos novos modelos.

No entanto, enquanto essas empresas desenvolvem métodos próprios para avaliação, cresce a preocupação sobre a transparência e a padronização de critérios.

Novos padrões e atualizações: como medir habilidades mais complexas

Para preencher essa lacuna, iniciativas como o SWE-bench Verified, benchmark atualizado em agosto, propõem avaliações mais práticas, envolvendo problemas de programação no mundo real.

A partir de códigos do GitHub, o teste solicita que os modelos de IA identifiquem e resolvam falhas em repositórios de código, exigindo habilidades de raciocínio.

No último teste, o modelo GPT-4o da OpenAI solucionou 41,4% dos problemas, enquanto o Claude 3.5 Sonnet da Anthropic alcançou 49%. Esse desempenho ilustra a complexidade crescente desses testes, que precisam avaliar o uso de ferramentas externas e simular cenários reais.

Nesse contexto, o simples formato de prompt e resposta se mostra insuficiente.

Ao mesmo tempo, a necessidade de problemas inéditos e mantidos fora do domínio público se intensifica para evitar que os modelos “trapaceiem” ao encontrar respostas pré-existentes em seus dados de treinamento.

Outro exemplo é o FrontierMath, benchmark desenvolvido por matemáticos que demonstra como os modelos mais avançados conseguem resolver menos de 2% das questões.

Para especialistas, sem consenso sobre como medir essas capacidades, o setor enfrenta dificuldades em comparar tecnologias e comunicar o valor dos modelos aos consumidores e empresas.

Acompanhe tudo sobre:Inteligência artificial

Futuro com robôs e regulamentação da IA: veja os destaques do 1° dia de Web Summit

Mais de Inteligência Artificial

Musk alerta funcionários da xAI que fusão com SpaceX não mudará objetivos da startup

Mais na Exame

Imagem referente à matéria: Musk alerta funcionários da xAI que fusão com SpaceX não mudará objetivos da startup

Inteligência Artificial

Inteligência Artificial

IA avançou tão rápido que empresas terão que recriar teste que medem desempenho dos chatbots

Empresas como OpenAI, Microsoft, Meta e Anthropic aceleram a criação de benchmarks para avaliar agentes autônomos de IA, que já ultrapassam métricas anteriores

Novos padrões e atualizações: como medir habilidades mais complexas

Mais de Inteligência Artificial

Musk alerta funcionários da xAI que fusão com SpaceX não mudará objetivos da startup

Oracle permanece 'confiante' com a OpenAI, diz empresa para tranquilizar investidores

OpenAI deixa pesquisas de lado para priorizar melhorias no ChatGPT

OpenAI contrata Bruno Lewicki como head de políticas públicas para a América Latina

Mais na Exame

Musk alerta funcionários da xAI que fusão com SpaceX não mudará objetivos da startup

Pepperoni vegano e mais: Vida Veg compra empresa de proteínas vegetais e mira R$130 milhões

Cultura e liderança serão fatores vitais na adoção da nova NR-1

O que os e-mails de Jeffrey Epstein diziam sobre Bill Gates