Inteligência Artificial

Inteligência artificial não é mais sobre chips potentes; entenda a nova proposta da Nvidia

Com grandes modelos já treinados usandos as gerações anteriores de chips, o setor agora avança para o conceito de inferência; entenda

Etapa é considerada fundamental para a rentabilidade da IA (ANDREW CABALLERO-REYNOLDS / Colaborador/Getty Images)

Etapa é considerada fundamental para a rentabilidade da IA (ANDREW CABALLERO-REYNOLDS / Colaborador/Getty Images)

Marina Semensato
Marina Semensato

Colaboradora

Publicado em 8 de janeiro de 2026 às 15h02.

O acordo de US$ 20 bilhões (R$ 107 bi na cotação atual) entre a Nvidia e a Groq, anunciado em 28 de dezembro, expôs uma virada de chave na estratégia da indústria da inteligência artificial. A empresa, que ascendeu e impôs sua liderança a partir da fabricação das GPUs — os famosos "chips" de processamento gráfico que viabilizaram o avanço do treinamento de modelos e sustentaram a primeira grande onda de IA generativa — agora aposta que a próxima fase do setor será voltada à inferência, ou seja, uma etapa em que os modelos já treinados são executados em aplicações reais.

O movimento indica que o avanço da IA passa a ser guiado pela eficiência na entrega de respostas em tempo real, além de gerar imagens e interagir com os usuários. Analistas da RBC Capital ouvidos pelo Business Insider apontam que a inferência deve se tornar a principal carga de trabalho da inteligência artificial e pode ultrapassar o mercado de treinamento no futuro.

Com a mudança na estratégia, muda também a lista de exigências técnicas. Isso porque o treinamento precisa de força computacional bruta e flexibilidade, enquanto a inferência demanda velocidade, previsibilidade, eficiência energética e custo por resposta.

LPUs e inferência

É nesse contexto que entra a Groq. A empresa, fundada por ex-engenheiros do Google, desenvolve as chamadas LPUs (Unidades de Processamento de Linguagem, na sigla em inglês). Ao contrário das GPUs, projetadas para múltiplas tarefas, as LPUs operam com execução fixa e previamente planejada. Essa rigidez ajuda a reduzir a latência e o desperdício de energia, dois pilares para aplicações em tempo real bem-sucedidas.

As GPUs da Nvidia dominam o treinamento justamente por serem flexíveis e atuarem em múltiplas atividades. Essa característica, no entanto, sobrecarrega o sistema quando usada para inferência, reduzindo a eficiência à medida que os produtos de IA se estabilizam e entram em operação contínua.

Para Tony Fadell, investidor da Groq, a indústria de IA passa por um novo ponto de inflexão. "As GPUs venceram decisivamente a primeira onda dos data centers de IA: o treinamento. Mas a inferência sempre seria o verdadeiro jogo em volume, e as GPUs, por projeto, não são otimizadas para isso", escreveu o executivo no LinkedIn. Ele, inclusive, já chama essa nova geração de chips de IPUs (Unidades de Processamento de Inferência, na sigla em português).

Influência no mercado

Analistas da TD Cowen afirmaram ao Business Insider que o fato da Nvidia ter adotado uma arquitetura dedicada à inferência mostra o quanto esse mercado amadureceu. A lógica anterior, de que as GPUs também seriam utilizadas para a inferência, deixa de prevalecer e abre espaço para múltiplos tipos de hardware em um mesmo data center.

Esse movimento também deve resultar em centros de dados mais fragmentados, com chips diferentes operando lado a lado. Chris Lattner, que participou do desenvolvimento das TPUs do Google, diz que a expansão para além das GPUs é impulsionada por dois fatores: o primeiro, de que a IA não é uma carga de trabalho única, e o segundo, que a especialização de hardware leva a "enormes ganhos de eficiência".

Nesse cenário, o acordo com a Groq é visto como uma estratégia de prevenção da Nvidia. Em vez de perder espaço para concorrentes focados em inferência, a empresa optou por incorporar uma arquitetura diferente em seu portfólio — o que Fadell descreveu como uma "atitude humilde" do CEO Jensen Huang.

Economia da inferência

É a partir da inferência que os produtos de IA passam a gerar receita. Essa etapa é considerada decisiva para comprovar se os investimentos multibilionários em data centers de IA serão sustentáveis no longo prazo. Em 2024, o CEO da AWS, Matt Garman, resumiu essa lógica ao dizer que, se a inferência não se tornar dominante, "todo esse investimento nesses grandes modelos não vai valer a pena".

Isso não quer dizer que a Nvidia vai abandonar as GPUs. A operação será em um ambiente híbrido, em que cada unidade de processamento — seja ele gráfico ou de linguagem — siga atuando e se aprimorando. A estratégia é combinar diferentes arquiteturas dentro dos mesmos data centers.

Para os analistas da RBC Capital, os data centers de IA caminham para esse modelo híbrido, "nos quais GPUs e ASICs personalizados operam lado a lado, cada um otimizado para diferentes tipos de carga de trabalho", escreveram em uma nota recente.

Mas a interpretação do mercado ainda não é unânime. De um lado, há quem entenda a parceria como um atestado de que as GPUs não são adequadas para inferência de alta velocidade. Do outro, existem pessoas que validam um futuro mais fragmentado, com diferentes chips atendendo a necessidades distintas — Huang, CEO da Nvidia, se encontra nesse segundo grupo. Além do acordo com a Groq, a empresa desenvolveu o NVLink Fusion, tecnologia que permite a conexão direta de chips personalizados às GPUs da empresa para ampliar a integração de diferentes tipos de hardware.

"As GPUs são aceleradoras fenomenais. Elas nos levaram longe na IA", escreveu recentemente Andrew Feldman, CEO da Cerebras. "Mas não são as máquinas certas para inferência de alta velocidade. Existem outras arquiteturas que são. E a Nvidia acaba de investir US$ 20 bilhões para corroborar isso", concluiu.

Acompanhe tudo sobre:Inteligência artificialData centerNvidia

Mais de Inteligência Artificial

OpenAI lança o ChatGPT Health, focado em respostas sobre saúde

Cortes de Trump em universidades ameaçam liderança dos EUA em IA, diz cientista da Microsoft

China prepara aval para compra de chips H200 da Nvidia

Essa é a ferramenta que transforma comandos simples em direção de arte