Nova ferramenta de IA do Google permite criação de imagens sem uso de texto
"Whisk" permite criar imagens combinando fotos enviadas pelos usuários, marcando mais um passo na corrida tecnológica de IA
Redator na Exame
Publicado em 18 de dezembro de 2024 às 06h08.
O Google apresentou sua mais recente ferramenta de inteligência artificial: o “Whisk”. Ele possibilita aos usuários carregar fotos para criar uma imagem gerada por IA sem necessidade de entrada textual. A novidade busca inspirar a criatividade ao permitir combinações de imagens de forma rápida e intuitiva.
De acordo com a CNN, com Whisk,os usuários podem carregar fotos que representem temas, cenários e estilos, que são então misturados em uma nova composição gerada pela IA. Caso desejem, podem incluir texto para direcionar detalhes específicos, mas a ferramenta não exige descrições textuais para funcionar.
Um novo conceito em edição visual
Segundo o Google, o Whisk não é um editor de imagens tradicional, mas uma “ferramenta criativa” voltada para exploração visual rápida. A ideia é oferecer uma experiência divertida e acessível, em vez de uma solução voltada a trabalhos profissionais refinados.
“Whisk é projetado para permitir que os usuários remixem temas, cenas e estilos de maneira criativa, oferecendo exploração visual rápida em vez de edições detalhadas”, afirmou Thomas Iljic, diretor de gerenciamento de produto do Google Labs, em comunicado oficial.A ferramenta utiliza a tecnologia central de IA do Google, chamada Gemini, em combinação com o modelo de geração de imagens, Imagen 3, desenvolvido pela DeepMind — laboratório de IA adquirido pelo Google em 2014.
Como funciona o Whisk
Quando o usuário carrega suas imagens, o modelo Gemini gera uma legenda que é usada como entrada para o Imagen 3. O sistema captura a “essência” do tema, mas não necessariamente replica os detalhes exatos. Isso permite maior liberdade na criação, mas também pode resultar em variações inesperadas no produto final, como altura, tom de pele ou penteado diferentes dos elementos iniciais.
Além disso, os usuários podem “remixar” a imagem final ao editar as entradas ou ajustar as categorias para produzir versões variadas, como brinquedos de pelúcia, broches ou adesivos.
Primeiros passos e expansão futura
Inicialmente, o Whisk está disponível como um site no Google Labs para usuários nos Estados Unidos e ainda está em fase inicial de desenvolvimento.A ferramenta se soma à crescente linha de produtos de IA do Google, que também inclui o Gemini para geração de texto e imagem e promete um Android reformulado em parceria com Samsung e Qualcomm.
O lançamento do Whisk segue a crescente concorrência no setor de IA. A OpenAI, por exemplo, lançou recentemente o Sora, um gerador de vídeos a partir de texto, destacando o ambiente competitivo entre as grandes empresas de tecnologia.
Dan Ives, analista da Wedbush Securities, descreveu o Whisk como mais um movimento estratégico do Google no mercado de IA. “O DeepMind é um ativo-chave para o Google, e os produtos de IA são parte do ‘baú do tesouro’ de inovações que a empresa planeja para 2025”, afirmou Ives.