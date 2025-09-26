A Samsung anunciou o TRUEBench, sistema desenvolvido pela divisão de pesquisa da companhia para avaliar de forma mais precisa a produtividade de modelos de linguagem em ambientes corporativos. A iniciativa busca superar a limitação de benchmarks tradicionais, geralmente focados em testes acadêmicos em inglês, pouco representativos das demandas do dia a dia empresarial.

O novo padrão analisa tarefas comuns no trabalho, como criação de conteúdo, análise de dados, resumo de documentos extensos e tradução de materiais. Ao todo, o TRUEBench cobre 10 categorias e 46 subcategorias, baseadas em cenários reais da própria experiência corporativa da Samsung.

Diferente dos modelos anteriores, o framework inclui 2.485 conjuntos de testes em 12 idiomas, e simula instruções curtas de oito caracteres até análises de mais de 20 mil caracteres. O objetivo é refletir a complexidade e o contexto de tarefas executadas em empresas globais.

Segundo Paul (Kyungwhoon) Cheun, CTO da divisão DX da Samsung Electronics e chefe do Samsung Research, o TRUEBench deve estabelecer novos padrões de avaliação de produtividade em IA corporativa.

O processo de criação contou com interação entre especialistas humanos e IA. Os avaliadores definiram critérios iniciais, revisados em seguida por modelos de IA para eliminar contradições ou restrições artificiais. O resultado foi um conjunto refinado de métricas mais alinhado às expectativas reais de usuários em ambientes de negócios.

