Gisele Souza, radialista mineira que enfrenta longa batalha judicial pelo direito da própria voz (Gisele Souza/Reprodução)
Repórter
Publicado em 25 de abril de 2024 às 11h33.
Última atualização em 26 de abril de 2024 às 11h45.
A próxima vez que a televisão estiver ligada ou você estiver aguardando para pular um comercial em um app, feche os olhos e ouça o que vem da tela. Tente prestar atenção nas vozes que se apresentam nos cortes de 30 segundos: você consegue distinguí-las, perceber se são naturais ou robotizadas ou se são parecidas com algo que já ouviu em algum outro anúncio publicitário? É provável que você tenha dificuldade em distinguir qualquer coisa e, no final, são apenas vozes. Faz diferença se forem humanas ou não?
Mas e se a locução fosse sua, mas na verdade, sem ser realmente você? Desde 2020, a mineira Gisele Souza identifica a própria voz em anúncios de campanhas do qual ela nunca concordou em participar – e enfrenta uma longa batalha judicial pelos direitos de uso da própria voz. Radialista por trás do programa “Entra na Roda e Gisa”, ela falou com exclusividade a EXAME sobre o caso que a assombra muito antes do termo “inteligência artificial” dominar a esfera pública.
Tudo começou quando Gisele, recém chegada em São Paulo e entusiasmada com a oportunidade de expandir seu trabalho, aceitou um projeto para gravar num sistema de texto para fala (TTS). Inicialmente recebeu a informação de que seria para um jogo de videogame e acabou gravando mais de 2 mil falas para o estúdio que, devido ao sigilo do processo, não teve seu nome divulgado.
À medida que o projeto avançava, Gisele gravou várias sessões, acreditando que sua voz seria usada de forma limitada e específica. No entanto, com o passar do tempo, ela começou a ouvir sua voz em lugares pelos quais ela não esperava.
De sites pornô ao maior reality show do Brasil, Gisele acredita já ter identificado sua voz em contextos completamente diferentes dos que inicialmente estabelecidos com o estúdio. “É uma assombração”, resume a mineira, que reitera que nunca foi avisada do uso de sua voz em tais campanhas ou recebeu qualquer compensação adicional.
Assim, escutando a própria voz em todo lugar, Gisele foi atrás de orientação legal. Ela havia recentemente entrado no Clube da Voz, associação de locutores comerciais do Brasil, e pediu conselhos para outros membros. A radialista descobriu que o contrato que ela havia assinado permitia ao estúdio usar sua voz de maneira ampla e irrestrita, algo que ela não havia compreendido inicialmente.
“Só que é uma voz robotizada, né? Eles pegam frases e palavras soltas e transformam no que quiser”, explica. “Imagino que a ideia é vender para essas marcas falando que é uma voz de inteligência artificial, mas isso não existe. Eles pegam voz humana e a transformam em algo artificial, entende?”
O que aconteceu com Gisele é diferente da clonagem de voz por inteligência artificial, mas carrega riscos semelhantes. No último ano, tem se tornado comum áudios de artistas cantando músicas inéditas que, essencialmente, não existem – como, por exemplo, o vídeo viral no qual Pabllo Vittar canta “Tio Sam”. O cantor nunca foi para o estúdio gravar, e a letra e a sonoridade foram feitas com ajuda de ferramentas de IA.
Sem legislação, os artistas se encontram numa situação delicada. Assim como Gisele, eles não têm controle da própria voz e podem encontrar áudios realistas seus cantando qualquer coisa, sobre qualquer tema.
No mês passado, mais de 200 artistas assinaram uma carta aberta que apela para que criadores de IA e empresas de tecnologia cessem o uso da tecnologia que “infringe e desvaloriza os direitos” dos artistas, citando a clonagem de voz como uma das crescentes preocupações.
Mas vale ressaltar que é um mercado com potencial lucrativo imenso: uma pesquisa recente indica um crescimento de US$ 3 bilhões no mercado de música gerada por inteligência artificial generativa até 2028. Por isso, hoje já se observa plataformas como o YouTube disponibilizando a voz de alguns artistas para a criação de músicas inéditas, além de ferramentas como a Moises.ai, que usa IA para separar as faixas de uma mesma música e foi idealizada pelo brasileiro Geraldo Ramos, que reside nos Estados Unidos.
A diferença entre modelagem e clonagem de voz, conforme explicado por Ramos, reside principalmente na conotação das palavras. Enquanto a palavra “clonagem” muitas vezes carrega um viés negativo por indicar a cópia da voz sem autorização do artista, a “modelagem” é realizada com consentimento explícito, garantindo compensação justa e uso ético das vozes.
Ramos destaca que, no contexto da Moises.ai, a modelagem de voz não visa substituir artistas, mas sim empoderá-los através da tecnologia. A empresa também vende "pacotes de voz" que permitem aos usuários aplicar o timbre de um artista a diferentes performances, mantendo o sotaque e a expressão natural do usuário original. Isso oferece uma ferramenta valiosa para produtores musicais que buscam agilidade e flexibilidade em seus projetos.
O assunto já chegou na Organização Mundial da Propriedade Intelectual (OMPI), que realizou assembleia em abril para discutir os avanços da inteligência artificial. Uma das cantoras presentes foi a brasileira Giulia, antes Giulia Be, que já utilizou a Moises.ai. Em discurso, ela destacou como a IA pode democratizar o ensino da música e ampliar, e não substituir, a criatividade.
“É necessário uma colaboração global para desenvolvermos normas que vão garantir um uso ético de IA na música, protegendo artistas e consumidores”, diz a cantora.
“Eu deixaria minha voz ser modelada por IA, mas com a garantia de que a voz e a arte fiquem sob o meu controle. Mas infelizmente, hoje a legislação mundial ainda não chegou nesse lugar”.
Foi justamente a falta de conhecimento sobre o tema que deixou Gisele numa situação legal complicada, ainda sem qualquer previsão de ser solucionada. “A minha voz é meu instrumento de trabalho. Para mim, ter ela é tão essencial quanto um braço ou uma perna”, resume a mineira. Apesar de ter assinado um contrato em 2020, a radialista não tinha ideia do avanço que a inteligência artificial teria e, consequentemente, como ela seria prejudicada. “Eu não aguento mais ouvir minha voz em lugares que não autorizei”.