Inteligência Artificial

Patrocinado por:

logo-totvs-preto

Google lança Gemini Live para conversas em voz com IA avançada

Ferramenta permite diálogos mais naturais e interruptíveis com IA, mas funções multimodais ainda estão por vir

André Lopes
André Lopes

Editor de Inteligência Artificial e Tecnologia

Publicado em 13 de agosto de 2024 às 16h20.

Última atualização em 13 de agosto de 2024 às 16h21.

A Google lançou nesta terça-feira, 13, o Gemini Live, uma resposta ao recurso Advanced Voice Mode da OpenAI, que foi lançado recentemente em fase alpha. Apresentado durante o evento "Made by Google 2024", o Gemini Live foi originalmente anunciado na conferência Google I/O 2024.

A novidade permite que os usuários mantenham conversas em voz mais "aprofundadas" com o Gemini, o chatbot da Google movido por IA generativa, diretamente em seus smartphones. Um dos destaques da ferramenta é um motor de fala aprimorado que, segundo a Google, oferece diálogos multi-turnos mais consistentes, expressivos e realistas.

yt thumbnail

Além disso, o Gemini Live permite que os usuários interrompam o chatbot durante a fala para fazer perguntas complementares, mudando em tempo real os padrões de fala para se adaptar a quem o utiliza.

A ferramenta é completamente "viva-voz" se o usuário desejar. É possível continuar conversando com o Gemini mesmo com o app em segundo plano ou com o celular bloqueado. As conversas podem ser pausadas e retomadas a qualquer momento.

Em um exemplo fornecido pela Google, o Gemini Live pode ser útil para treinar para uma entrevista de emprego, sugerindo habilidades a destacar e oferecendo dicas de fala.

Memória aprimorada e novos recursos no horizonte

Uma possível vantagem do Gemini Live sobre o Advanced Voice Mode do ChatGPT é a memória superior. Os modelos de IA generativa que sustentam o Live, Gemini 1.5 Pro e Gemini 1.5 Flash, possuem uma janela de contexto maior que a média, o que significa que eles conseguem processar e raciocinar sobre uma grande quantidade de dados — potencialmente horas de conversas — antes de formular uma resposta.

Ainda assim, o Gemini Live não possui todas as funcionalidades prometidas na Google I/O. Por exemplo, a entrada multimodal, que permitiria ao Live responder a fotos ou vídeos capturados pelas câmeras dos celulares, só será disponibilizada "mais tarde neste ano", segundo a empresa.

Além disso, o Gemini Live está disponível apenas em inglês por enquanto, com a Google planejando expandir para outros idiomas e para iOS em breve. O acesso ao Gemini Live é exclusivo para assinantes do plano Google One AI Premium, que custa US$ 20 por mês.

Apesar disso, outros recursos gratuitos do Gemini estão a caminho. Nas próximas semanas, usuários de Android poderão sobrepor o Gemini a qualquer app, permitindo que ele responda perguntas sobre o que está na tela, além de gerar imagens que podem ser arrastadas para outros apps, como o Gmail.

Acompanhe tudo sobre:GoogleInteligência artificial

Mais de Inteligência Artificial

Meta inicia desmonte de acordo de US$ 2 bilhões pela Manus

OpenAI aposta em descontos para competir com crescimento do Claude

IA pode acabar com empregos de forma permanente — e isso pode ser inevitável, diz CEO da Anthropic

Como aproveitar ao máximo o potencial da Claude AI