Patrocinado por:
Redatora
Publicado em 7 de abril de 2025 às 15h51.
Última atualização em 7 de abril de 2025 às 16h37.
A DeepSeek está pesquisando um novo método para aprimorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs). A companhia publicou em parceria com a Universidade de Tsinghua um artigo que explora a abordagem conhecida como modelagem de recompensa generativa (GRM) e ajuste por “crítica auto-orientada” (do inglês, Self-Principled Critique Tuning - SPCT).
De acordo com o artigo publicado no arXiv na última quinta-feira, 3, o uso de SPTC melhorou de forma significativa a qualidade e a escalabilidade de GRMs, “ultrapassando métodos e modelos existentes em vários benchmarks de RM (modelamento de recompensa)”. Esse tipo de sistema guia o LLM em direção a preferências humanas, explica o South China Morning Post.
Entretanto, o artigo ressalta que o DeepSeek-GRM ainda tem desafios ao realizar algumas tarefas, que os pesquisadores acreditam que possam ser resolvidos com sistemas de recompensa generalistas.
O artigo diz que o modelo será lançado em código aberto, mas não forneceu uma data. A pesquisa foi publicada em meio a expectativas para o lançamento do próximo modelo de linguagem da DeepSeek, o R2.
A Reuters reportou no fim de fevereiro que a startup está acelerando esforços para adiantar o lançamento do R2, inicialmente previsto para maio, com o intuito de manter a vantagem conquistada com o antecessor R1. Mas não foram divulgados mais detalhes sobre a linha do tempo da empresa. A DeepSeek espera que o novo modelo seja capaz de produzir melhor codificação e raciocinar em outros idiomas para além do inglês.