Tecnologia

Como transcrever áudio em texto com ferramentas online

Transformar arquivos de áudio em texto é um benefício que auxilia desde estudantes e jornalistas até pesquisadores acadêmicos: saiba como isso funciona

Rafael Arbulu
Rafael Arbulu

Redator freelancer

Publicado em 14 de março de 2024 às 20h07.

Muitas áreas de trabalho tiram benefício de usar notas escritas a partir de arquivos de áudio – entrevistas, notas gravadas etc. – para conduzir suas demandas. Entretanto, fazer a transcrição disso sozinho é um processo longo, tedioso e que pode gerar algum erro caso demore tempo demais.

Felizmente, hoje, existem aplicações que cuidam justamente desta parte, evitando que você tenha que dedicar boa parte do seu dia ouvindo algo apenas para torná-lo textual. Veja a seguir as principais ferramentas que vão lhe ajudar com esta demanda:

Como converter áudio em texto?

Essencialmente, “transcrição de áudio” é algo simples de entender: você tem um arquivo de som – uma entrevista produzida por um jornalista, notas de voz gravadas por pesquisadores etc. – e você precisa transformar isso tudo em texto.

O jeito mais óbvio de fazer isso também é o mais tedioso e longo: você ouve o áudio, pausa para escrever o que ouviu, e retoma a escuta. Obviamente, um processo mecânico desses tende a ser o menos preferível para quem precisa fazer isso, então a maioria das pessoas depende de ferramentas que cuidam dessa parte para elas.

O uso de tais ferramentas é bem simples: você baixa e instala um aplicativo, coloca o áudio para rodar dentro dele e, em tempo real, ele vai produzindo a “versão escrita”, lhe entregando um documento completo para revisão.

Só que algumas ferramentas trazem mais benefícios que outras, como por exemplo…

Google Pinpoint

O Pinpoint é uma ferramenta desenvolvida pelos laboratórios digitais do Google para auxiliar jornalistas e pesquisadores acadêmicos, trazendo uma suíte completa que vai desde o compartilhamento de documentos com a comunidade até funções mais específicas, como resgatar textos de imagens com legendas ou documentos escritos à mão e fotografados.

A transcrição de áudio é apenas um dos recursos do Pinpoint, permitindo até 200 mil documentos a serem “lidos” pela ferramenta para a criação de notas textuais. E ele faz isso com documentos em Word (editáveis) ou PDFs (não editáveis), com uma boa precisão e abrindo espaço para que este documento seja utilizado nas outras funções da ferramenta.

E o melhor: ele faz isso imediatamente, sem nenhuma necessidade de comando direto por parte do usuário – não é à toa que ele é um dos preferidos dos jornalistas.

Infelizmente, o Pinpoint não é muito recomendado para uso em smartphones: apesar de ser compatível com os dispositivos de bolso, o tempo de resposta neles e a inconsistência de resultados acaba tirando pontos da experiência – fora que ele não faz transcrição em tempo real, então existem outras opções caso você precise resolver uma demanda diferente.

Transcriber

O Transcriber ganhou fama ao se apresentar como um app de transcrição de áudio pelo WhatsApp. De acordo com a empresa, em 2022, seus usuários enviaram, em média, 7 bilhões de mensagens de áudio por dia. Com o aumento de duração e qualidade das notas de voz, é natural que o app de mensagens inaugurasse recursos que facilitam a experiência. Estranhamente, porém, a transcrição de áudio nunca foi um deles.

Nisso, entrou o Transcriber, que se conecta à sua conta no WhatsApp e permite que aquela mensagem de áudio de oito minutos do seu amigo seja transformada em texto, e a forma de fazê-lo é bem simples: abra uma janela de conversa no WhatsApp, encontre (ou envie) um áudio e, pressionando-o com o dedo, escolha a opção “Compartilhar”, clicando no ícone do Transcriber em seguida. Após as devidas permissões concedidas, o app vai exibir a versão em texto do áudio em uma janela separada.

Vale citar, no entanto, que o Transcriber usa o protocolo de código aberto Wit.ai para executar a transcrição, e é o avanço dessa tecnologia que assegura a precisão do que o app vai escrever. No inglês, ele vai bem, mas o português brasileiro exige uma revisão mais cuidadosa, já que o aplicativo deixa passar várias nuances da nossa língua.

Microsoft Word

O Word, da Microsoft, é possivelmente o editor de texto mais conhecido do mundo, mas ele também conta com uma função de transcrição que, embora não a mais completa, não deixa de ser robusta, permitindo até que você faça anotações no áudio e no texto, como carimbos de marcações de horário e minutagem simples.

Mais ainda, ele permite não só o upload de arquivos de áudio, como também faz a gravação e transcrição direta em tempo real. Para isso, basta você fazer o seguinte:

  • Certifique-se de que está conectado com uma conta da Microsoft ao Office 365 – a versão em nuvem dos apps de escritório da empresa: você faz isso pelo navegador (a Microsoft tem preferência pelo Edge ou Chrome, mas qualquer um serve), fazendo login em sua conta do Outlook
  • No Word 365, procure pela aba “Página Inicial” e, depois dela, vá para “Ditar” e, em seguida, “Transcrever”. Se for a sua primeira vez, o navegador pedirá permissão para usar o microfone do seu dispositivo (o Office 365 também funciona em smartphones e tablets)
  • Toque em “Iniciar gravação” e comece a falar: aqui, você terá controles como pausa e retomada, término de gravação e upload automático para o Onedrive, por onde o Word começará a transcrever o material

É importante ressaltar que o painel “Transcrever” deve ficar aberto durante todo esse processo.

No caso de transcrever um arquivo pré-existente, este arquivo deve ser armazenado no mesmo procedimento da gravação em tempo real: a opção “Transcrever” do menu tem uma segunda função para “Carregar áudio”. Uma vez identificado o arquivo, o app começará a transcrição automaticamente.

Otter.ai

A Otter é uma empresa que fornece apps de escritório que se integram a diversas outras soluções, facilitando a colaboração entre funcionários. A parte de transcrição de áudio, que nos interessa aqui, é uma delas.

Apesar do “AI” no nome, a Otter nunca reconheceu que usa a inteligência artificial em nenhum de seus apps, preferindo tratar os benefícios de seus programas como conquistas locais. Isso dito, é uma das soluções de transcrição mais conhecidas do mercado, fornecendo suporte a uso via desktop/notebook e também dispositivos móveis e uma facilidade maior de capturar áudio em ambientes barulhentos – certamente, uma vantagem em relação a outros programas.

Fora isso, o Otter também permite a criação de um vocabulário customizado (com certas ressalvas) para que ele “aprenda” certas terminologias mais específicas a campos de trabalho ou gírias.

Entretanto, é importante ressaltar que a Otter.ai, embora conte com um plano gratuito, tem maior potencial apenas a quem paga por um de seus muitos planos mensais e, segundo análises de especialistas, tem alguns percalços: o programa falha em reconhecer fins de frases, por exemplo e, até o fechamento deste texto, ainda não oferece suporte a outros idiomas que não o inglês e o inglês britânico.

Google Docs

Uma das ferramentas mais simples de transcrição de áudio é o Google Docs. A solução de edição de texto do Google também conta com uma parte voltada para “escrever” anotações faladas (ele insiste em chamar o processo de “Digitação por voz”, mas é a mesma coisa…) e seu uso é incrivelmente fácil.

Para fazer uma transcrição em tempo real, basta abrir um novo documento no seu computador (obrigatoriamente, você tem que ter um microfone conectado):

  • No menu superior, clique em “Ferramentas” e, em seguida, “Digitação por voz”
  • Note que, no meio da tela, agora é exibido um ícone de microfone: clique nele para começar a transcrição e veja que suas palavras começam a aparecer em texto no documento aberto. Clique no mesmo ícone para parar o processo

Infelizmente, o Docs ainda não oferece suporte ao upload de arquivos de áudio pré-gravados, então uma “gambiarra” se faz necessária: você deixa o áudio em reprodução por outro programa ou dispositivo, e abre a “Digitação por voz”, transcrevendo-o em tempo real.

Vale citar, no entanto, que o Docs é bem simplista em relação a nuances, e não pega muito bem fins de frases ou pontuações. Então, como toda transcrição, é importante que você revise o material.

Como transcrever o áudio de uma reunião em vídeo?

As videochamadas tomaram imensa popularidade durante as restrições da pandemia e, hoje, com boa parte das empresas adotando o trabalho remoto, elas se firmaram como uma necessidade do mundo corporativo.

Destas, as três soluções principais do setor (Google) Meet, (Microsoft) Teams e Zoom, oferecem funções de transcrição de áudios capturados nas reuniões virtuais, a fim de que a tomada de anotações do que foi decidido nesses encontros seja facilitada.

No Meet

  • Inicie uma nova videochamada
  • No canto inferior direito, clique em “Atividades”, seguido de “Transcrições” e, finalmente, “Iniciar transcrição”
  • O mesmo caminho serve para interromper a captura

É importante, no entanto, ressaltar alguns detalhes: apenas o organizador da chamada é quem pode começar ou parar uma transcrição, e o arquivo com as notas escritas será salvo no Drive desta mesma pessoa (desde tenha espaço suficiente no armazenamento da conta). Mais além, a transcrição de áudio via Meet está disponível apenas no computador, não em dispositivos móveis, como celulares ou tablets.

Ah, e o Google prioriza o inglês, então a compreensão em outras línguas é um pouco menor.

No Teams

  • Procure pela opção “Mais ações” nos controles da reunião
  • Selecione a opção “Registro e transcrever”, seguido de “Iniciar transcrição”
  • Com a transcrição iniciada, um ícone será exibido a todo momento na tela da videochamada, e ele mesmo também oferece diversos controles, como alteração do idioma falado ou direcionamento de arquivo para salvar em outra pasta

Assim como no Meet, a transcrição no Teams também perde um pouco para nuances, então revise o material antes de usá-lo. Ah, sim: o Teams também não oferece transcrição se o acesso for feito via smartphone, exigindo um PC para esta finalidade.

No Zoom

  • comece uma nova videochamada
  • no menu superior, vá para a opção “Gravar” e, em seguida, “Gravar na nuvem”

Depois do fim da reunião, o próprio Zoom enviará um email ao organizador alertando-o de que a gravação da videochamada foi completada. Minutos mais tarde, um segundo email o alertará da transcrição.

Assim como nas soluções anteriores, esse recurso é exclusivo do PC e não funciona em dispositivos móveis. Mais além, a transcrição de áudio é uma ferramenta disponível apenas para usuários pagantes da plataforma, então membros do plano gratuito não contam com ela.

Tactiq.io

O Tactiq é um aplicativo que usa da inteligência artificial generativa (a mesma classificação do ChatGPT e similares) para aprimorar a transcrição de áudio em reuniões. Embora ele não ofereça suporte a áudios pré-gravados, ele vem se posicionando como uma opção popular ora gravação e tomada de notas em videochamadas, que ocorrem ao vivo.

Seu principal diferencial é o suporte facilitado ao Zoom, Meets e Teams, além de alguns outros mecanismos menos populares. No entanto, ao contrário deles, que exigem a instalação de um app dedicado, o Tactiq também pode ser usado direto do navegador – ele é distribuído como uma extensão do Google Chrome. A ideia é facilitar o acesso rápido com uma solução de função única: basta começar a reunião e clicar no ícone correspondente a ele, sem navegar por menus.

Na parte da IA generativa, o Tactiq a emprega para capturar nuances que geralmente passam despercebidas por outros apps, então ele tem uma precisão maior em “entender” pontuações ou fins de frase. Naturalmente, você ainda vai revisar a transcrição que ele produzir, mas é provável que passe menos tempo corrigindo erros nele do que em outras soluções.

Ah, e o aprendizado da IA faz com que a próxima próxima transcrição sempre seja mais precisa que a anterior.

Mais além, o Tactiq oferece um plano gratuito bem robusto (10 transcrições por mês, compartilhamento e exportação de transcrições) e, nos planos pagos, seus preços são bem acomodáveis, partindo de US$ 8 mensais (cerca de R$ 40).

É possível transcrever áudio do Whatsapp como texto?

A transcrição nativa de áudio do WhatsApp – ou seja, sem precisar de um app de terceiros – já é uma realidade desde setembro de 2023…para algumas pessoas: naquela época, o WhatsApp Beta (versão do mensageiro onde são implementados recursos em teste, antes de seus lançamentos comerciais) já trazia a função dentro do menu de configurações.

Hoje, o lançamento já foi feito para um grupo seleto de usuários (no jargão da tecnologia, isso se chama “soft launch”) que obedecem a parâmetros específicos. Para começar, certifique-se que o WhatsApp esteja instalado em seu dispositivo em sua versão mais recente. Isso não é garantia de que a função se abrirá para você, mas é algo necessário se e quando isso acontecer.

Isso dito, faça o seguinte:

  • Na tela inicial do app, vá para o menu de controle e acesse a aba “Configurações”
  • Em seguida, abra a aba “Conversas” e, na tela seguinte, habilite a opção de transcrição de áudio

A partir daí, toda mensagem de áudio que você receber poderá ser convertida em texto: basta que você toque e segure a mensagem em questão e, no menu dela, pedir para “Transcrever”.

Ainda não há informação de quando a função será disponibilizada em caráter definitivo pela Meta, dona do WhatsApp.

Outras ferramentas de inteligência artificial que convertem áudio para texto

  • Temi
  • MeetGeek
  • Fireflies.ai
  • Grain
  • Happy Scribe
  • Vowel
Acompanhe tudo sobre:Inteligência artificial

Mais de Tecnologia

O Vale entre Trump e Kamala: pleito coloca setor de tecnologia em lados opostos das eleições nos EUA

China inova com o lançamento do primeiro robô humanoide ultraleve, o Konka-1

Xiaomi investirá US$ 3,3 bi em P&D em 2024 e mira US$ 4,2 bi em 2025

China lança padrão internacional de dados de células-tronco para acelerar pesquisa