Tecnologia

Como criar vozes usando a IA? Veja 8 ferramentas gratuitas para usar

Saiba como criar conteúdo gerado artificial em áudio.

Rafael Arbulu
Rafael Arbulu

Redator freelancer

Publicado em 8 de março de 2024 às 10h35.

Última atualização em 12 de março de 2024 às 11h36.

O ChatGPT e seus semelhantes mudaram as possibilidades na criação de conteúdo digital. Textos, vídeos e fotos podem ser gerados rapidamente como apenas um pedido escrito. 

Narrações, diálogos e até dublagem podem ser tarefas delegadas à inteligência artificial. E o melhor: algumas dessas ferramentas são gratuitas.

Saiba a seguir tudo o que você precisa para começar e quais as IA mais interessantes para trabalhar.

Como gerar voz usando a inteligência artificial?

A primeira coisa a se ressaltar é que, embora ambos possam fazer a mesma atividade, “voz gerada por inteligência artificial” – ou IA – e programas normais de transcrição de texto para áudio é a naturalidade do resultado.

Apps de transcrição limitam-se a ler o que você escreve sem muita nuance, o que pode fazer com que o resultado fique, como diz a expressão popular, “macarrônico”, pulando pontuações ou errando a pronúncia de palavras acentuadas, por exemplo.

Já a geração de voz por IA busca justamente trazer esse entendimento humanizado – ou tão “humanizado” quanto um computador possa ser – oferecendo resultados mais naturais e reconhecíveis por nossa audição. Não à toa, apps de IA tendem a ser os preferidos por empresas de vídeo que precisam de alguma narração, mas nenhum profissional da área disponível. Este, aliás, é um debate recorrente entre funcionários e companhias no cinema, música e videogames.

O processo para que você comece a usar tais aplicações é relativamente simples: basta escolher uma solução de sua preferência e selecionar os modelos mais interessantes ao seu projeto. Alguns apps são pagos e oferecem mais recursos, enquanto outros, gratuitos, tendem a ter menos flexibilidade. Ainda assim, algumas possibilidades se destacam para quem não quer gastar com isso ou deseja apenas “brincar” com a ideia, tais como…

Quais são as melhores IAs gratuitas para a geração de voz? Veja algumas opções:

Clipchamp

O editor de vídeo da Microsoft já é um velho conhecido dos usuários de versões mais recentes do Windows. Em setembro de 2023, o app ganhou uma série de funções alavancadas pelo poder da inteligência artificial, dentro de um “guarda-chuva” chamado “AutoCompose”.

Essencialmente, o recurso “lê” sua mídia – seja ela um conjunto de imagens, um vídeo inteiro ou, neste caso, um clipe de áudio – e ao analisar o material, sugere a você as melhores formas de editá-lo, desde tempos de corte até efeitos de transição e inserção de exemplos que prometem aprimorar a qualidade do projeto.

O melhor é que ele faz isso em poucos instantes, permitindo que você aplique as recomendações por todo o material e, rapidamente, tenha algo robusto e de alta qualidade.

WaveNet

O WaveNet é o que se convém chamar de “LLM” (sigla em inglês para “Modelo Amplo de Linguagem”), um modelo de configuração que permite que você “treine” aplicações de IA. Lançado em 2016 pelo DeepMind, o braço de pesquisa em inteligência artificial do Google, o WaveNet é aplicado em boa parte dos serviços do tipo, justamente por ser exclusivamente dedicado à produção de discursos de voz.

Inclusive, ele é tão difundido que você pode até já estar usando-o sem perceber: tanto o WaveNet como o WaveRNN – sua versão para dispositivos móveis – é aplicada no cerne de produtos como o Google Assistente, a navegação via Google Maps e buscas feitas por comando de voz. O recém-divulgado Gemini (ex “Google Bard”) também é um projeto que tem, entre outras aplicações incorporadas, o WaveNet em sua composição.

Usar o WaveNet como parte de alguma outra solução em IA, no entanto, é um pouco mais complicado: apesar de gratuito, isso envolve conhecimentos em programação, incorporação de várias linhas de código ao seu código-fonte…geralmente, quem se aventura nesta parte já é um profissional de TI com uma boa experiência. Entretanto, diversos sites e empresas de IA permitem que você experimente o WaveNet por meio de consoles dedicados, e uma conta no Google Cloud habilita 14 dias de teste gratuitos antes de começar a cobrar pelas soluções.

Murf AI

Uma das soluções mais simples desta lista, o Murf AI tem como vantagens a gratuidade irrestrita em seu uso, ampliando a gama de recursos para quem se interessa em assinar qualquer um dos três planos pagos. Evidentemente, há limitações entre um e outro, mas elas não são tão evidentes e alguns usuários sequer as percebem.

O modelo gratuito do Murf AI conta com 32 exemplos de voz gerada por IA, e permite até 10 minutos de geração de voz autônoma, 10 minutos de transcrição e até três usuários na mesma conta. O lado ruim: você não consegue fazer o download de nada que criar no plano gratuito.

A interface dele também é bem simples, permitindo que você apenas faça um login e já comece a usar, colando ou digitando uma frase (ou “frases”) no editor de texto e, com um clique, encomendando a conversão com resultados, na maioria dos casos, melhores até que o Google.

Speechify

O Speechify é uma solução bastante famosa – e uma das principais a serem adotadas por públicos bem específicos, como pessoas com deficiência de visão, ou estudantes e trabalhadores multitarefas. A ideia deste app é usar a inteligência artificial para narrar a você materiais escritos, desde pequenas digitações suas a livros inteiros.

Assim como o Murf AI, o Speechify conta com uma versão gratuita com diversas limitações, e outros plano – estes, pagos – que habilitam o potencial completo da solução. A diferença, no entanto, fica na entrega: o Speechify tende a pecar na nuance e realismo das vozes, que soam bastante robóticas. Então se você é o tipo de pessoa que dá valor à interpretação tanto quanto à fidelidade de um texto, pode ter dificuldades em se adaptar a ele.

Play.ht

O Play.ht é uma das soluções mais assertivas quando o assunto é “voz gerada por IA”. Isso porque, ao contrário de apostar em um modelo próprio, ele pega diversas funções encontradas em outras soluções e cria um compilado próprio – o já mencionado WaveNet, do Google, é um dos LLMs aplicados no Play.ht, por exemplo.

Ele também é bastante robusto, contando com mais de 600 exemplos de vozes e alguns recursos bem legais, como customização de pronúncias, controle de tom de voz, velocidade de reprodução e até seletores de simulação de emoção.Mais além, suas mais de 800 vozes são distribuídas em várias categorias, indo desde “mulheres x homens” até faixas de idade e, finalmente, suporte a mais de 140 idiomas incluindo o português brasileiro.

O plano gratuito também é bastante interessante: limitado a 2,5 mil palavras geradas por mês, ele não “fecha” os recursos do Play.ht, permitindo que você use o potencial da ferramenta quase que plenamente – a exigência é que o crédito do trabalho deve ser atribuído à ela em conjunto com você.

Falatron

Uma solução genuinamente brasileira, o Falatron é a aplicação de texto para voz via IA mais fácil de ser usada: basta acessar o site, aceitar os termos de uso (que envolvem esclarecimentos bem válidos sobre uso comercial e veiculação de fake news) e começar a digitar na caixa de texto, no seu próprio navegador.

O interessante é que, ao contrário de outras aplicações mencionadas aqui, o Falatron é inteiramente de graça e não tem planos de assinatura. A única ressalva financeira é se você, usuário final, quiser fazer alguma doação para manutenção do projeto, que conta com direcionamentos para sites de financiamento coletivo (Apoia-Se e Patreon) ou depósito direto via PIX.

Naturalmente, a estrutura do app é consideravelmente menor que a de outras marcas, então o volume de funções também é bastante reduzido. Entretanto, se você busca uma solução rápida para transcrições e geração de voz para, digamos, um projeto mais imediato, essa pode ser a melhor opção para você.

Natural Reader

A ferramenta preferida entre professores e estudantes, o Natural Reader pode não ter tanta capacidade de humanização de IA se comparado a outras soluções da lista, mas o seu grande destaque fica para sua alta capacidade em OCR (sigla em inglês para “Reconhecimento Óptico de Caracteres”) – essencialmente, ele consegue trabalhar texto-para-voz até mesmo em arquivos de imagens. Quem está na universidade vai entender, dado o volume de cópias que tiramos de livros para estudar.

Assim como seus concorrentes, ele tem uma versão gratuita com (severas) limitações, permitindo apenas 200 palavras por documento, veiculação de anúncios e menos idiomas suportados. Por outro lado, funções como converter arquivos criados para o formato .mp3 e customizações de tom de voz e velocidade de reprodução.

Ao contrário das outras opções, o Natural Reader é uma ferramenta destinada a quem prefere fazer apenas o básico.

Animaker Voice

O Animaker Voice é uma função de um outro app – o editor de vídeo e animação Animaker – que tomou uma proporção maior do que originalmente se esperava, fazendo seus criadores a separarem em um app dedicado e criar uma nova linha de negócios ao redor dela.

Essencialmente, o Animaker Voice é um produto de texto-para-vídeo com dois pilares: um gratuito e um pago. Na versão gratuita, as limitações comumente vistas em outros apps também são vistas aqui, embora em menor intensidade: você tem direito a cinco downloads de arquivos gerados por mês, acesso a uma parte do catálogo de vozes e narrações (50, de um total de 200), download em formato .mp3 e armazenamento de material em nuvem. Por outro lado, você não poderá, por exemplo, incorporar o arquivo para reprodução direta em um blog nem tampouco fazer aprimoramentos de áudio restritos à versão paga.

A interface do app é bastante elogiada por seus usuários pois, a exemplo do Murf AI, basta apenas um login e já começar a escrever no editor de texto, pedindo pela conversão em apenas um clique. Em resumo, não é das soluções mais robustas, mas certamente é uma das mais interessantes para projetos simples.

Leia mais

Acompanhe tudo sobre:Inteligência artificial

Mais de Tecnologia

EUA impõem novas restrições emchips avançados da TSMC para clientes chineses, diz agência

Tencent e Visa lançam pagamento por palma da mão em Cingapura; primeiro mercado fora da China

Mídia programática com influenciadores: o plano da BrandLovrs para distribuir R$ 1 bi em 4 anos

Canadá ordena fechamento do escritório do TikTok, mas mantém app acessível