ChatGPT e Gemini no modo voz: assistentes de IA permitem conversas faladas com respostas em tempo real (Reprodução/MIT Technology Review)
Colaboradora
Publicado em 26 de junho de 2026 às 14h15.
Quem já usou o ChatGPT ou o Gemini digitando sabe que a interação, às vezes, exige atenção total à tela: antes de acessar qualquer resultado, você precisa ler os comandos e acompanhar todo o processo da inteligência artificial (IA). O modo voz simplifica esse caminho, visto que o usuário fala e ouve de volta, em uma conversa que acontece em tempo real.
Parece uma ligação telefônica. O usuário pode interromper, reformular, contestar, mudar de assunto ou retomar um ponto anterior no meio da frase.
Ambos os assistentes têm interação com voz disponível em português no Brasil, tanto em planos gratuitos quanto pagos.Veja o que dá para fazer e quais as diferenças de limites e funcionalidade entre eles.
Muitas pessoas pensam que o modo voz consiste no assistente "ditando" uma resposta digitada, mas o processo é outro. No modo voz, o modelo de IA processa o áudio de forma nativa — sem converter para texto no meio do caminho — e responde falando.
É diferente, por exemplo, das vezes em que o usuário manda um áudio com uma pergunta, pois nesse modelo os assistentes transcrevem o que foi dito, processam e só então respondem com um texto.
No ChatGPT, o recurso se chama Advanced Voice Mode (Modo Avançado de Voz).
Ele opera com o modelo GPT-4o, que interpreta tom e pausas da fala, além de hesitações comuns em conversas. O usuário ativa o modo tocando no ícone de onda sonora no canto inferior direito do app (celular, desktop ou web). São nove opções de voz — Arbor, Breeze, Cove, Ember, Juniper, Maple, Sol, Spruce e Vale — cada uma com entonação e ritmo distintos.
No Gemini, o recurso se chama Gemini Live e roda sobre o modelo Gemini 3.1 Flash Live, com suporte nativo a mais de 90 idiomas. O usuário acessa o modo tocando no ícone "Live" no app do Gemini para Android ou iOS. São dez opções de voz com variações de tom e personalidade, incluindo vozes em português do Brasil.
A diferença prática entre os dois está no que cada um conecta. O Gemini Live integra a conversa por voz com apps do Google — Gmail, Agenda, Maps, Keep, Tarefas e YouTube —, enquanto o ChatGPT aposta em uma experiência de conversa mais aberta, com compartilhamento de câmera e tela durante a sessão de voz para assinantes dos planos pagos.
O modo voz rende mais do que perguntas rápidas. Quando usado com informação de apoio e continuidade, ele se aproxima de uma conversa assistida. Estes são os cinco usos mais fortes nos dois assistentes.
Quando o usuário precisa perguntar algo e ouvir a resposta enquanto cozinha, caminha ou dirige. Tanto o ChatGPT quanto o Gemini Live funcionam em segundo plano e com a tela bloqueada (desde que o recurso esteja ativado nas configurações do dispositivo). No Gemini, o modo mãos-livres é integrado ao Android e funciona com o comando "Hey Google".
O modo de voz transforma a IA em um tutor, para o qual se pode pedir a explicação de um tema em etapas, peça por peça, e interromper quando precisar de mais detalhe ou quiser pular para o próximo ponto.
A conversa mantém o fio entre as perguntas, sem precisar repetir o que já foi dito.
Os dois assistentes aceitam troca de idioma no meio da conversa. O ChatGPT permite pedir traduções em tempo real — o usuário fala em português e pede a resposta em inglês, ou o contrário. O Gemini Live conta com tradução por voz integrada ao Google Tradutor, com suporte a mais de 70 idiomas e preservação de entonação.
No ChatGPT (planos Plus e Pro), o modo de voz aceita vídeo ao vivo e compartilhamento de tela pelo celular. O usuário pode apontar a câmera para um objeto, uma tela de configuração ou um produto e conversar com a IA sobre o que ela vê. No Gemini Live, o compartilhamento de câmera e tela está disponível em dispositivos Android compatíveis — incluindo a linha Pixel e Samsung Galaxy.
Diferente de um chatbot de texto, o modo de voz permite um fluxo mais natural de conversa, em que o usuário pode começar falando sobre um relatório, mudar para uma dúvida sobre um voo e voltar ao relatório sem que a IA perca o raciocínio. No Gemini Live, a conversa pode ser retomada depois de pausada. No ChatGPT, o histórico da sessão de voz fica transcrito no chat e pode ser continuado por texto ou por voz.
O modo voz funciona melhor quando o usuário fala como falaria com outra pessoa, a diferença é que ele precisa incluir detalhes sobre o que espera da resposta. Em vez de "explique inteligência artificial", uma instrução como "explique em três etapas, com um exemplo do dia a dia, sem usar termos técnicos" gera uma resposta mais útil.
Outras práticas que melhoram o resultado são:
O modo voz ainda não substitui a checagem manual em temas sensíveis. A própria OpenAI avisa que conversas por voz podem conter erros e que informações relevantes devem ser verificadas.
Nomes próprios pouco comuns, termos técnicos de nicho e números longos podem ser mal interpretados pela captação de áudio.
No Gemini Live, recursos como Gems e Notebooks não estão acessíveis durante sessões de voz — o usuário precisa voltar ao modo texto para usá-los. No ChatGPT, o modelo que roda no modo de voz é o GPT-4o, não o GPT-5.1 usado no chat por texto, o que pode resultar em respostas menos elaboradas para tarefas de raciocínio complexo.
O Gemini Live é gratuito para qualquer usuário com conta Google e o app do Gemini instalado. A versão sem custo usa o modelo Gemini 3.5 Flash e inclui acesso diário ao Gemini Pro. Os planos pagos — Google AI Plus (US$ 8/mês), AI Pro (US$ 20/mês) e AI Ultra (a partir de US$ 100/mês) — ampliam limites de uso e desbloqueiam recursos como compartilhamento de tela e câmera em mais dispositivos.
O ChatGPT oferece acesso ao modo de voz padrão (Standard Voice) sem custo, com limite de duas horas diárias. O Advanced Voice Mode, com processamento nativo de áudio e suporte a vídeo, câmera e tela, está disponível com prévia diária limitada no plano gratuito. Os planos Plus (US$ 20/mês) e Pro (US$ 200/mês) ampliam o tempo de uso e a prioridade de acesso.