Robôs humanoides: Nvidia tem versão da tecnologia com dois cérebros (Imagem gerada por IA/Exame)
Repórter
Publicado em 23 de junho de 2026 às 06h16.
Última atualização em 23 de junho de 2026 às 06h21.
Um robô humanoide que precisa pegar uma caixa, atravessar um corredor e evitar um funcionário que cruza seu caminho enfrenta, na prática, o mesmo dilema que qualquer ser humano: parte da tarefa exige pensar, parte exige apenas reagir.
A Nvidia resolveu esse problema copiando a própria arquitetura da cognição humana — e batizou o resultado de GR00T, o modelo de fundação que funciona como "cérebro" de boa parte dos robôs humanoides do mercado atual.
A ideia, descrita pela própria companhia, é simples de enunciar e complexa de construir: dividir a inteligência do robô em dois sistemas que operam em velocidades diferentes, mas de forma conjunta, um "Sistema 2", devagar e deliberado, e um "Sistema 1", rápido e quase instintivo.
O Sistema 2 é a parte do GR00T que olha para o mundo e decide o que fazer.
Tecnicamente, é um modelo de visão e linguagem, na mesma categoria de tecnologia que permite a um chatbot entender uma foto e responder perguntas sobre ela.
Aqui, esse modelo recebe imagens captadas pelas câmeras do robô e instruções em linguagem natural, e a partir disso decompõe uma tarefa complexa em etapas menores: para "guardar a caixa na prateleira de cima", o sistema precisa primeiro entender onde está a caixa, onde está a prateleira, e em que ordem mover o corpo para conectar as duas coisas.
Esse raciocínio é deliberado de propósito. A Nvidia o compara à cognição "lenta" descrita por psicólogos — o tipo de pensamento que avalia contexto, antecipa consequências e só então decide um plano de ação.
É aí que entra o Sistema 1. Ele recebe o plano elaborado pelo Sistema 2 e o traduz em comandos motores contínuos — a sequência exata de movimentos das juntas, dos dedos e das pernas do robô, ajustada a cada fração de segundo conforme o corpo se move no espaço real.
Tecnicamente, essa camada usa uma arquitetura chamada diffusion transformer: um tipo de rede neural que, em vez de calcular um movimento perfeito de uma só vez, refina repetidamente um rascunho de movimento até chegar a uma trajetória suave e estável.
A metáfora que a própria Nvidia usa é a do reflexo: assim como um humano não "pensa" conscientemente sobre cada músculo que aciona para pegar uma xícara de café, o Sistema 1 do GR00T opera de forma quase automática, liberando o Sistema 2 para continuar planejando os próximos passos da tarefa.
Treinar esse tipo de sistema exige uma quantidade de dados que nenhuma empresa conseguiria gerar só com robôs físicos repetindo tarefas no mundo real — processo lento, caro e arriscado.
A solução da Nvidia foi combinar três fontes diferentes: dados reais coletados de robôs em operação, simulações sintéticas geradas dentro da plataforma Omniverse da própria empresa, e vídeos em primeira pessoa de humanos realizando tarefas do cotidiano, captados por câmeras vestíveis.
Esse último ponto é o que a Nvidia chama de "lei de escala da destreza": segundo a empresa, treinar o modelo com mais de 20 mil horas de vídeo humano gravado em primeira pessoa melhora, de forma previsível, a capacidade do robô de executar tarefas delicadas com os dedos — sem precisar de teleoperação em massa, técnica mais cara em que um humano controla remotamente cada movimento do robô para gerar dados de treinamento.
Uma das apostas centrais do projeto é que o mesmo "cérebro" sirva para corpos diferentes — robôs de fabricantes distintos, com proporções, números de juntas e capacidades físicas variadas. A arquitetura do GR00T resolve isso com camadas de codificação específicas para cada "corporificação", que traduzem as particularidades físicas de cada robô para uma linguagem interna comum, compreendida igualmente pelos dois sistemas.
Na versão mais recente do modelo, batizada de GR00T N1.7, essa generalização avançou a ponto de permitir controle integral do corpo — pernas, braços e mãos — a partir de uma única política de IA, em vez de sistemas separados para locomoção e manipulação. Na prática, o mesmo comando em linguagem natural já pode coordenar um robô andando até um objeto e, simultaneamente, ajustando os dedos para pegá-lo, sem trocar de "cérebro" entre uma ação e outra.