Inteligência Artificial

Nova ferramenta de IA do Google permite criação de imagens sem uso de texto

"Whisk" permite criar imagens combinando fotos enviadas pelos usuários, marcando mais um passo na corrida tecnológica de IA

Whisk, a nova ferramenta de IA do Google, utiliza imagens para gerar composições criativas e acessíveis. (Sarmento Matos/Getty Images)

Whisk, a nova ferramenta de IA do Google, utiliza imagens para gerar composições criativas e acessíveis. (Sarmento Matos/Getty Images)

Fernando Olivieri
Fernando Olivieri

Redator na Exame

Publicado em 18 de dezembro de 2024 às 06h08.

O Google apresentou sua mais recente ferramenta de inteligência artificial: o “Whisk”. Ele possibilita aos usuários carregar fotos para criar uma imagem gerada por IA sem necessidade de entrada textual. A novidade busca inspirar a criatividade ao permitir combinações de imagens de forma rápida e intuitiva.

De acordo com a CNN, com Whisk, os usuários podem carregar fotos que representem temas, cenários e estilos, que são então misturados em uma nova composição gerada pela IA. Caso desejem, podem incluir texto para direcionar detalhes específicos, mas a ferramenta não exige descrições textuais para funcionar.

Um novo conceito em edição visual

Segundo o Google, o Whisk não é um editor de imagens tradicional, mas uma “ferramenta criativa” voltada para exploração visual rápida. A ideia é oferecer uma experiência divertida e acessível, em vez de uma solução voltada a trabalhos profissionais refinados.

“Whisk é projetado para permitir que os usuários remixem temas, cenas e estilos de maneira criativa, oferecendo exploração visual rápida em vez de edições detalhadas”, afirmou Thomas Iljic, diretor de gerenciamento de produto do Google Labs, em comunicado oficial.

A ferramenta utiliza a tecnologia central de IA do Google, chamada Gemini, em combinação com o modelo de geração de imagens, Imagen 3, desenvolvido pela DeepMind — laboratório de IA adquirido pelo Google em 2014.

Como funciona o Whisk

Quando o usuário carrega suas imagens, o modelo Gemini gera uma legenda que é usada como entrada para o Imagen 3. O sistema captura a “essência” do tema, mas não necessariamente replica os detalhes exatos. Isso permite maior liberdade na criação, mas também pode resultar em variações inesperadas no produto final, como altura, tom de pele ou penteado diferentes dos elementos iniciais.

Além disso, os usuários podem “remixar” a imagem final ao editar as entradas ou ajustar as categorias para produzir versões variadas, como brinquedos de pelúcia, broches ou adesivos.

Primeiros passos e expansão futura

Inicialmente, o Whisk está disponível como um site no Google Labs para usuários nos Estados Unidos e ainda está em fase inicial de desenvolvimento. A ferramenta se soma à crescente linha de produtos de IA do Google, que também inclui o Gemini para geração de texto e imagem e promete um Android reformulado em parceria com Samsung e Qualcomm.

O lançamento do Whisk segue a crescente concorrência no setor de IA. A OpenAI, por exemplo, lançou recentemente o Sora, um gerador de vídeos a partir de texto, destacando o ambiente competitivo entre as grandes empresas de tecnologia.

Dan Ives, analista da Wedbush Securities, descreveu o Whisk como mais um movimento estratégico do Google no mercado de IA. “O DeepMind é um ativo-chave para o Google, e os produtos de IA são parte do ‘baú do tesouro’ de inovações que a empresa planeja para 2025”, afirmou Ives.

Acompanhe tudo sobre:GoogleInteligência artificialSamsungQualcomm

Mais de Inteligência Artificial

Música com Anitta e Barões da Pisadinha é falsa e feita por inteligência artificial, diz cantora

Clube do trilhão: Broadcom se junta ao seleto grupo das empresas que valem US$ 1 tri

Tarcísio usa IA e coloca Elon Musk para promover mudança de sede do governo paulista

Cofundador da OpenAI, Ilya Sutskever, afirma que a forma como a IA é criada está prestes a mudar