Google lança Gemini Live para conversas em voz com IA avançada
Ferramenta permite diálogos mais naturais e interruptíveis com IA, mas funções multimodais ainda estão por vir
Repórter
Publicado em 13 de agosto de 2024 às 16h20.
Última atualização em 13 de agosto de 2024 às 16h21.
A Google lançou nesta terça-feira, 13, o Gemini Live, uma resposta ao recurso Advanced Voice Mode da OpenAI, que foi lançado recentemente em fase alpha. Apresentado durante o evento "Made by Google 2024", o Gemini Live foi originalmente anunciado na conferência Google I/O 2024.
A novidade permite que os usuários mantenham conversas em voz mais "aprofundadas" com o Gemini, o chatbot da Google movido por IA generativa, diretamente em seus smartphones. Um dos destaques da ferramenta é um motor de fala aprimorado que, segundo a Google, oferece diálogos multi-turnos mais consistentes, expressivos e realistas.
Além disso, o Gemini Live permite que os usuários interrompam o chatbot durante a fala para fazer perguntas complementares, mudando em tempo real os padrões de fala para se adaptar a quem o utiliza.
A ferramenta é completamente " viva-voz" se o usuário desejar. É possível continuar conversando com o Gemini mesmo com o app em segundo plano ou com o celular bloqueado. As conversas podem ser pausadas e retomadas a qualquer momento.
Em um exemplo fornecido pela Google, o Gemini Live pode ser útil para treinar para uma entrevista de emprego, sugerindo habilidades a destacar e oferecendo dicas de fala.
Memória aprimorada e novos recursos no horizonte
Uma possível vantagem do Gemini Live sobre o Advanced Voice Mode do ChatGPT é a memória superior. Os modelos de IA generativa que sustentam o Live, Gemini 1.5 Pro e Gemini 1.5 Flash, possuem uma janela de contexto maior que a média, o que significa que eles conseguem processar e raciocinar sobre uma grande quantidade de dados — potencialmente horas de conversas — antes de formular uma resposta.
Ainda assim, o Gemini Live não possui todas as funcionalidades prometidas na Google I/O. Por exemplo, a entrada multimodal, que permitiria ao Live responder a fotos ou vídeos capturados pelas câmeras dos celulares, só será disponibilizada "mais tarde neste ano", segundo a empresa.
Além disso, o Gemini Live está disponível apenas em inglês por enquanto, com a Google planejando expandir para outros idiomas e para iOS em breve. O acesso ao Gemini Live é exclusivo para assinantes do plano Google One AI Premium, que custa US$ 20 por mês.
Apesar disso, outros recursos gratuitos do Gemini estão a caminho. Nas próximas semanas, usuários de Android poderão sobrepor o Gemini a qualquer app, permitindo que ele responda perguntas sobre o que está na tela, além de gerar imagens que podem ser arrastadas para outros apps, como o Gmail.