Como funcionam os dois cérebros dos robôs humanoides da Nvidia

Modelo GR00T divide inteligência entre planejamento e reflexos para permitir que robôs executem tarefas complexas em tempo real

Robôs humanoides: Nvidia tem versão da tecnologia com dois cérebros (Imagem gerada por IA/Exame)

Tamires Vitorio

Repórter

Publicado em 23 de junho de 2026 às 06h16.

Última atualização em 23 de junho de 2026 às 06h21.

Um robô humanoide que precisa pegar uma caixa, atravessar um corredor e evitar um funcionário que cruza seu caminho enfrenta, na prática, o mesmo dilema que qualquer ser humano: parte da tarefa exige pensar, parte exige apenas reagir.

A Nvidia resolveu esse problema copiando a própria arquitetura da cognição humana — e batizou o resultado de GR00T, o modelo de fundação que funciona como "cérebro" de boa parte dos robôs humanoides do mercado atual.

A ideia, descrita pela própria companhia, é simples de enunciar e complexa de construir: dividir a inteligência do robô em dois sistemas que operam em velocidades diferentes, mas de forma conjunta, um "Sistema 2", devagar e deliberado, e um "Sistema 1", rápido e quase instintivo.

O cérebro que pensa antes de agir

O Sistema 2 é a parte do GR00T que olha para o mundo e decide o que fazer.

Tecnicamente, é um modelo de visão e linguagem, na mesma categoria de tecnologia que permite a um chatbot entender uma foto e responder perguntas sobre ela.

Aqui, esse modelo recebe imagens captadas pelas câmeras do robô e instruções em linguagem natural, e a partir disso decompõe uma tarefa complexa em etapas menores: para "guardar a caixa na prateleira de cima", o sistema precisa primeiro entender onde está a caixa, onde está a prateleira, e em que ordem mover o corpo para conectar as duas coisas.

Esse raciocínio é deliberado de propósito. A Nvidia o compara à cognição "lenta" descrita por psicólogos — o tipo de pensamento que avalia contexto, antecipa consequências e só então decide um plano de ação.

O cérebro que reage em tempo real

É aí que entra o Sistema 1. Ele recebe o plano elaborado pelo Sistema 2 e o traduz em comandos motores contínuos — a sequência exata de movimentos das juntas, dos dedos e das pernas do robô, ajustada a cada fração de segundo conforme o corpo se move no espaço real.

Tecnicamente, essa camada usa uma arquitetura chamada diffusion transformer: um tipo de rede neural que, em vez de calcular um movimento perfeito de uma só vez, refina repetidamente um rascunho de movimento até chegar a uma trajetória suave e estável.

A metáfora que a própria Nvidia usa é a do reflexo: assim como um humano não "pensa" conscientemente sobre cada músculo que aciona para pegar uma xícara de café, o Sistema 1 do GR00T opera de forma quase automática, liberando o Sistema 2 para continuar planejando os próximos passos da tarefa.

De onde vem a inteligência do robô

Treinar esse tipo de sistema exige uma quantidade de dados que nenhuma empresa conseguiria gerar só com robôs físicos repetindo tarefas no mundo real — processo lento, caro e arriscado.

A solução da Nvidia foi combinar três fontes diferentes: dados reais coletados de robôs em operação, simulações sintéticas geradas dentro da plataforma Omniverse da própria empresa, e vídeos em primeira pessoa de humanos realizando tarefas do cotidiano, captados por câmeras vestíveis.

Esse último ponto é o que a Nvidia chama de "lei de escala da destreza": segundo a empresa, treinar o modelo com mais de 20 mil horas de vídeo humano gravado em primeira pessoa melhora, de forma previsível, a capacidade do robô de executar tarefas delicadas com os dedos — sem precisar de teleoperação em massa, técnica mais cara em que um humano controla remotamente cada movimento do robô para gerar dados de treinamento.

Um cérebro, vários corpos

Uma das apostas centrais do projeto é que o mesmo "cérebro" sirva para corpos diferentes — robôs de fabricantes distintos, com proporções, números de juntas e capacidades físicas variadas. A arquitetura do GR00T resolve isso com camadas de codificação específicas para cada "corporificação", que traduzem as particularidades físicas de cada robô para uma linguagem interna comum, compreendida igualmente pelos dois sistemas.

Na versão mais recente do modelo, batizada de GR00T N1.7, essa generalização avançou a ponto de permitir controle integral do corpo — pernas, braços e mãos — a partir de uma única política de IA, em vez de sistemas separados para locomoção e manipulação. Na prática, o mesmo comando em linguagem natural já pode coordenar um robô andando até um objeto e, simultaneamente, ajustando os dedos para pegá-lo, sem trocar de "cérebro" entre uma ação e outra.

Acompanhe tudo sobre:Nvidia Robôs

Mais de 80% dos supercomputadores mais rápidos do mundo usam tecnologia da Nvidia

Mais de Tecnologia

Como assinar documentos online com validade jurídica

Mais na Exame

Imagem referente à matéria: CazéTV exibirá final da Copa do Mundo em cinemas de sete estados; veja a lista

Esporte

Tecnologia

Como funcionam os dois cérebros dos robôs humanoides da Nvidia

Modelo GR00T divide inteligência entre planejamento e reflexos para permitir que robôs executem tarefas complexas em tempo real

O cérebro que pensa antes de agir

O cérebro que reage em tempo real

De onde vem a inteligência do robô

Um cérebro, vários corpos

Mais de Tecnologia

Como assinar documentos online com validade jurídica

O ChatGPT vai ganhar um 'corpo'; e por isso a Apple está processando a OpenAI

Como usar o ChatGPT para estudar para concursos, Enem e provas

Oferta de US$ 53 bilhões pelo PayPal expõe pressão sobre pagamentos digitais

Mais na Exame

CazéTV exibirá final da Copa do Mundo em cinemas de sete estados; veja a lista

Waze usa IA do Gemini para simplificar a direção do motorista — veja como funciona

Juiz ordena que Maduro e outros chavistas paguem US$ 314 milhões por processo nos EUA

EMS reduz preço do Ozivy: veja novos valores do 'Ozempic brasileiro'