ChatGPT e Gemini no modo voz: o que dá para fazer falando com a IA?

Recurso disponível nos dois assistentes permite conversas por voz com interrupção, tradução, compartilhamento de câmera e integração com apps do dia a dia

ChatGPT e Gemini no modo voz: assistentes de IA permitem conversas faladas com respostas em tempo real (Reprodução/MIT Technology Review)

Marina Semensato

Colaboradora

Publicado em 26 de junho de 2026 às 14h15.

Quem já usou o ChatGPT ou o Gemini digitando sabe que a interação, às vezes, exige atenção total à tela: antes de acessar qualquer resultado, você precisa ler os comandos e acompanhar todo o processo da inteligência artificial (IA). O modo voz simplifica esse caminho, visto que o usuário fala e ouve de volta, em uma conversa que acontece em tempo real.

Parece uma ligação telefônica. O usuário pode interromper, reformular, contestar, mudar de assunto ou retomar um ponto anterior no meio da frase.

Ambos os assistentes têm interação com voz disponível em português no Brasil, tanto em planos gratuitos quanto pagos.

Veja o que dá para fazer e quais as diferenças de limites e funcionalidade entre eles.

O que é o modo voz do ChatGPT e do Gemini?

Muitas pessoas pensam que o modo voz consiste no assistente "ditando" uma resposta digitada, mas o processo é outro. No modo voz, o modelo de IA processa o áudio de forma nativa — sem converter para texto no meio do caminho — e responde falando.

É diferente, por exemplo, das vezes em que o usuário manda um áudio com uma pergunta, pois nesse modelo os assistentes transcrevem o que foi dito, processam e só então respondem com um texto.

No ChatGPT, o recurso se chama Advanced Voice Mode (Modo Avançado de Voz).

Ele opera com o modelo GPT-4o, que interpreta tom e pausas da fala, além de hesitações comuns em conversas. O usuário ativa o modo tocando no ícone de onda sonora no canto inferior direito do app (celular, desktop ou web). São nove opções de voz — Arbor, Breeze, Cove, Ember, Juniper, Maple, Sol, Spruce e Vale — cada uma com entonação e ritmo distintos.

No Gemini, o recurso se chama Gemini Live e roda sobre o modelo Gemini 3.1 Flash Live, com suporte nativo a mais de 90 idiomas. O usuário acessa o modo tocando no ícone "Live" no app do Gemini para Android ou iOS. São dez opções de voz com variações de tom e personalidade, incluindo vozes em português do Brasil.

A diferença prática entre os dois está no que cada um conecta. O Gemini Live integra a conversa por voz com apps do Google — Gmail, Agenda, Maps, Keep, Tarefas e YouTube —, enquanto o ChatGPT aposta em uma experiência de conversa mais aberta, com compartilhamento de câmera e tela durante a sessão de voz para assinantes dos planos pagos.

Quais são os 5 usos mais úteis do modo voz?

O modo voz rende mais do que perguntas rápidas. Quando usado com informação de apoio e continuidade, ele se aproxima de uma conversa assistida. Estes são os cinco usos mais fortes nos dois assistentes.

1. Tirar dúvidas sem parar o que está fazendo

Quando o usuário precisa perguntar algo e ouvir a resposta enquanto cozinha, caminha ou dirige. Tanto o ChatGPT quanto o Gemini Live funcionam em segundo plano e com a tela bloqueada (desde que o recurso esteja ativado nas configurações do dispositivo). No Gemini, o modo mãos-livres é integrado ao Android e funciona com o comando "Hey Google".

2. Pedir explicações passo a passo

O modo de voz transforma a IA em um tutor, para o qual se pode pedir a explicação de um tema em etapas, peça por peça, e interromper quando precisar de mais detalhe ou quiser pular para o próximo ponto.

A conversa mantém o fio entre as perguntas, sem precisar repetir o que já foi dito.

3. Praticar idiomas e traduzir conversas

Os dois assistentes aceitam troca de idioma no meio da conversa. O ChatGPT permite pedir traduções em tempo real — o usuário fala em português e pede a resposta em inglês, ou o contrário. O Gemini Live conta com tradução por voz integrada ao Google Tradutor, com suporte a mais de 70 idiomas e preservação de entonação.

4. Usar câmera ou tela para orientar decisões

No ChatGPT (planos Plus e Pro), o modo de voz aceita vídeo ao vivo e compartilhamento de tela pelo celular. O usuário pode apontar a câmera para um objeto, uma tela de configuração ou um produto e conversar com a IA sobre o que ela vê. No Gemini Live, o compartilhamento de câmera e tela está disponível em dispositivos Android compatíveis — incluindo a linha Pixel e Samsung Galaxy.

5. Manter uma conversa contínua com troca de assunto

Diferente de um chatbot de texto, o modo de voz permite um fluxo mais natural de conversa, em que o usuário pode começar falando sobre um relatório, mudar para uma dúvida sobre um voo e voltar ao relatório sem que a IA perca o raciocínio. No Gemini Live, a conversa pode ser retomada depois de pausada. No ChatGPT, o histórico da sessão de voz fica transcrito no chat e pode ser continuado por texto ou por voz.

Dicas para falar com a IA de forma mais natural

O modo voz funciona melhor quando o usuário fala como falaria com outra pessoa, a diferença é que ele precisa incluir detalhes sobre o que espera da resposta. Em vez de "explique inteligência artificial", uma instrução como "explique em três etapas, com um exemplo do dia a dia, sem usar termos técnicos" gera uma resposta mais útil.

Outras práticas que melhoram o resultado são:

Quebre a tarefa em partes. Peça primeiro uma visão geral, depois aprofunde um ponto, depois peça um resumo ou uma comparação. A IA mantém o fio da conversa entre as etapas;
Interrompa quando necessário. Os dois assistentes aceitam interrupção — se a resposta não está no caminho certo, basta falar por cima. A IA para e começa a ouvir;
Use fones de ouvido. A OpenAI recomenda fones com microfone embutido para reduzir ruído de fundo e melhorar a captação. No Gemini, fones Bluetooth funcionam com o modo mãos-livres no Android;
Escolha a voz certa para o momento. Uma voz calma rende mais em sessões longas de estudo; uma voz energética funciona melhor para brainstorming rápido. As duas plataformas permitem trocar de voz a qualquer momento nas configurações.

O que o modo voz não faz bem?

O modo voz ainda não substitui a checagem manual em temas sensíveis. A própria OpenAI avisa que conversas por voz podem conter erros e que informações relevantes devem ser verificadas.

Nomes próprios pouco comuns, termos técnicos de nicho e números longos podem ser mal interpretados pela captação de áudio.

No Gemini Live, recursos como Gems e Notebooks não estão acessíveis durante sessões de voz — o usuário precisa voltar ao modo texto para usá-los. No ChatGPT, o modelo que roda no modo de voz é o GPT-4o, não o GPT-5.1 usado no chat por texto, o que pode resultar em respostas menos elaboradas para tarefas de raciocínio complexo.

Quanto custa usar o modo de voz do ChatGPT e do Gemini?

O Gemini Live é gratuito para qualquer usuário com conta Google e o app do Gemini instalado. A versão sem custo usa o modelo Gemini 3.5 Flash e inclui acesso diário ao Gemini Pro. Os planos pagos — Google AI Plus (US$ 8/mês), AI Pro (US$ 20/mês) e AI Ultra (a partir de US$ 100/mês) — ampliam limites de uso e desbloqueiam recursos como compartilhamento de tela e câmera em mais dispositivos.

O ChatGPT oferece acesso ao modo de voz padrão (Standard Voice) sem custo, com limite de duas horas diárias. O Advanced Voice Mode, com processamento nativo de áudio e suporte a vídeo, câmera e tela, está disponível com prévia diária limitada no plano gratuito. Os planos Plus (US$ 20/mês) e Pro (US$ 200/mês) ampliam o tempo de uso e a prioridade de acesso.

Acompanhe tudo sobre:OpenAI Tecnologia Inteligência artificial ChatGPT

Quem são os AI Consultants e por que essa profissão está em alta

Mais de Tecnologia

China aposta em fibra óptica que transmite dados mais rápido para aplicações de IA

Mais na Exame

Imagem referente à matéria: Raves após os 40? Estudo revela por que cada vez mais mulheres estão voltando às pistas

Ciência

Tecnologia

ChatGPT e Gemini no modo voz: o que dá para fazer falando com a IA?

Recurso disponível nos dois assistentes permite conversas por voz com interrupção, tradução, compartilhamento de câmera e integração com apps do dia a dia

O que é o modo voz do ChatGPT e do Gemini?

Quais são os 5 usos mais úteis do modo voz?

1. Tirar dúvidas sem parar o que está fazendo

2. Pedir explicações passo a passo

3. Praticar idiomas e traduzir conversas

4. Usar câmera ou tela para orientar decisões

5. Manter uma conversa contínua com troca de assunto

Dicas para falar com a IA de forma mais natural

O que o modo voz não faz bem?

Quanto custa usar o modo de voz do ChatGPT e do Gemini?

Mais de Tecnologia

China aposta em fibra óptica que transmite dados mais rápido para aplicações de IA

Correios da Itália fazem oferta para Tim voltar a ser estatal

Geração Z troca médicos pelo TikTok — e a ansiedade dispara

UE multa AliExpress em € 550 milhões por falhas contra produtos ilegais

Mais na Exame

Raves após os 40? Estudo revela por que cada vez mais mulheres estão voltando às pistas

O El Niño vai derrubar a produção de soja do Brasil? Para este banco, não

Mercado de injetáveis cresce, mas enfrenta pressão por controle sanitário e logístico

Veja quando será o primeiro jogo do Brasil após a Copa do Mundo