Como a China desafiou o domínio do ChatGPT e criou uma IA de ponta por 5% do custo

Modelo open source DeepSeek utiliza aprendizado por reforço e reacende debate sobre infraestrutura para inteligência artificial precisar de crescimento exponencial

SUQIAN, CHINA - JANUARY 27: In this photo illustration, the download page of Deepseek is displayed on a smartphone screen on January 27, 2025 in Suqian, Jiangsu Province of China. (Photo by VCG/VCG via Getty Images) (VCG/VCG/Getty Images)

Repórter

Publicado em 27 de janeiro de 2025 às 09h58.

Última atualização em 27 de janeiro de 2025 às 13h52.

O lançamento do modelo de inteligência artificial (IA) chinês DeepSeek R1 está mudando muitos paradigmas sobre o que é necessário para atingir performances de ponta no universo dos chatbots. Desenvolvido com um orçamento significativamente menor do que concorrentes como o ChatGPT e Claude, o modelo open source conseguiu rivalizar com um custo estimado entre 3% e 5% do modelo proprietário da OpenAI.

A notícia gerou uma corrida frenética de desenvolvedores no mundo, com o modelo DeepSeek R1 sendo baixado mais de 109 mil vezes no HuggingFace, a principal plataforma de modelos open source, e na qual é possível acessar, por exemplo, o modelo Llama da Meta.

Veja também

Na bolsa americana, o efeito do lançamento chinês causou uma segunda-feira turbulenta, com o índice Nasdaq-100 caindo 3,40% e ações de gigantes como Nvidia (-12%), Microsoft (-4,63%) e Meta (-3,40%) sofrendo perdas significativas.

Apelidado de "momento Sputnik" da IA, o avanço reacende a disputa tecnológica entre China e EUA, enquanto especialistas divergem sobre a sustentabilidade dessa nova liderança. O caso expõe a necessidade de reavaliação estratégica por parte das big techs, já que o investimento em infraestrutura de IA deve alcançar US$ 280 bilhões até 2025, segundo o UBS.

DeepSeek na AppStore: aplicativo chinês promete competição acirrada com os modelos americanos (VCG/VCG/Getty Images)

Abandonando o "script" do aprendizado supervisionado

O grande diferencial do DeepSeek R1 está em sua abordagem de engenharia: a substituição quase completa do tradicional aprendizado supervisionado ( Supervised Fine-Tuning, ou SFT) por aprendizado por reforço ( Reinforcement Learning, ou RL).

O SFT, amplamente usado na indústria, foca em ensinar modelos a seguir raciocínios predefinidos, utilizando dados curados em cadeia de pensamento ( Chain-of-Thought, CoT).

No entanto, a DeepSeek decidiu seguir outro caminho, descartando o SFT em grande parte do processo de treinamento e confiando quase exclusivamente no aprendizado por reforço.

Essa escolha ousada incentivou o modelo a desenvolver capacidades de raciocínio independentes, sem depender de datasets prescritivos, que podem introduzir fragilidades e vieses.

A estratégia mostrou ser um divisor de águas. Durante o treinamento do DeepSeek-R1-Zero, uma versão intermediária do modelo, os pesquisadores relataram um "momento aha" quando a IA demonstrou capacidade de alocar mais tempo de processamento a problemas complexos e resolvê-los de forma precisa.

"Foi como se o modelo criasse soluções inovadoras e articulasse suas descobertas em um tom quase humano," apontou o relatório técnico da empresa.

Mai acessível e eficiente

A origem do DeepSeek remonta a 2023, quando a startup chinesa, um spin-off da gestora de fundos High-Flyer Quant, começou a desenvolver modelos de IA para uso interno antes de abrir os projetos ao público.

Sua abordagem inicial seguiu caminhos tradicionais, utilizando tecnologias open source como o modelo Llama, da Meta, e a biblioteca PyTorch.

A empresa ainda conseguiu driblar barreiras comerciais para garantir acesso a 50 mil GPUs da Nvidia, uma fração dos recursos utilizados por gigantes como OpenAI e Google, que operam com mais de 500 mil GPUs cada.

Com um orçamento de treinamento inicial estimado em US$ 5,58 milhões, o modelo base V3 já demonstrava potencial competitivo.

Embora os custos totais do R1 permaneçam especulativos, fica claro que o time da DeepSeek soube utilizar de forma brilhante recursos limitados — com inovações como o treinamento de precisão mista, que reduz a memória necessária por GPU ao utilizar números de 8 bits, e algoritmos que otimizam a comunicação entre GPUs, aumentando sua eficiência.

Por que isso importa para as empresas?

O impacto do DeepSeek R1 indica ir além da comunidade de desenvolvedores de IA. Sua capacidade de oferecer desempenho igual ao dos líderes de mercado com custos reduzidos desafia a lógica de dependência de modelos proprietários como os da OpenAI.

Para empresas, isso significa uma democratização do acesso à IA de ponta, permitindo que organizações menores entrem na corrida tecnológica sem precisar investir bilhões em infraestrutura.

Além disso, a transparência do DeepSeek para ser duro um golpe contra os modelos fechados de grandes players. O modelo exibe todo o raciocínio de suas respostas, permitindo que desenvolvedores identifiquem e corrijam erros com facilidade.

Em contraste, a OpenAI opta por ocultar as "cadeias de pensamento" de seus modelos, alegando motivos competitivos e para evitar confusões com respostas incorretas.

Repercussões éticas e limitações

A origem chinesa do DeepSeek gerou controvérsias sobre possíveis vieses alinhados a políticas locais, como a omissão de tópicos sensíveis, incluindo o Massacre da Praça da Paz Celestial. Apesar disso, muitos desenvolvedores minimizam esses casos como raros e apontam que vieses também estão presentes em modelos de empresas ocidentais, incluindo OpenAI e Meta.

Outra crítica é que, embora o DeepSeek R1 seja rotulado como open source, a empresa ainda não revelou todos os detalhes de seus datasets de treinamento, levantando dúvidas sobre a real abertura do projeto.

Acompanhe tudo sobre:Inteligência artificial OpenAI China