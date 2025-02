Pesquisadores da Universidade de Stanford e da Universidade de Washington conseguiram criar um modelo de inteligência artificial que dizem superar algumas capacidades do modelo da OpenAI GPT-o1 com um gasto de menos US$ 50 com computação em nuvem.

O trabalho foi publicado na plataforma de compartilhamentos de pesquisas ArXiv. Segundo o artigo, os pesquisadores buscavam a forma mais simples de conseguir um raciocínio de alta performance em “escalonamento de tempo real”, o que significa permitir que a IA pense por mais tempo antes de dar a resposta.

O modelo obtido, chamado de s1, conseguiu exceder o o1 com um desempenho 27% melhor em perguntas de competição de matemática. O código do modelo, que é aberto, pode ser acessado no GitHub.

Os pesquisadores usaram o método de destilação, que consiste em extrair as capacidades de raciocínio de outros modelos de IA. Para isso, eles utilizaram o Gemini 2.0 Flash Thinking. O treinamento do s1 contou com 16 unidades de processamento gráfico (GPUs) H100 da Nvidia.

Primeiro, os pesquisadores fizeram um banco de dados com uma curadoria de mil perguntas pareadas com rastros de raciocínio. Em seguida, com o intuito de fazer com que esse raciocínio durasse mais tempo, eles adicionaram a palavra “Wait” (do inglês, esperar) várias vezes quando o modelo tenta terminar o raciocínio. Isso faz com que a IA revise sua resposta e corrija etapas que podem estar incorretas.

Um dos autores do estudo da Universidade de Stanford Niklas Muennighoff disse ao site de notícias TechCrunch que hoje seria possível alugar a computação em nuvem necessária para realizar o projeto por US$ 20.

O s1 não é o único modelo de código aberto criado recentemente capaz de competir com os de grandes empresas de tecnologia com menos recursos. Em janeiro, a startup chinesa DeepSeek provocou alarde ao demonstrar pela primeira vez esse feito e chegou a derrubar ações de grandes companhias na bolsa de valores Nasdaq.

O instituto de pesquisa não-lucrativo Ai2 dos Estados Unidos também anunciou neste ano um modelo de linguagem de código aberto para competir com a DeepSeek. E a startup francesa Mistral também corre atrás da mesma proposta de entregar uma IA que de alta performance sem a necessidade de tanto poder computacional.