Skip to content
Blog
14 Out 2020   Atualizado em 19 Abril 2021

Como funciona o reconhecimento de voz para transcrição de áudio?

person using speech-to-text on laptop computer
Topics
Transcrição automática

Com a introdução de softwares de reconhecimento de voz como o Alexa, Siri, Cortana, assistente do Google, a transcrição de áudio começou a substituir a digitação e mudou a maneira como interagimos com aparelhos eletrônicos.

Em que estágio estamos de desenvolvimento da tecnologia de reconhecimento de voz?

Os desenvolvimentos recentes da tecnologia de reconhecimento de voz não apenas deixaram a nossa vida mais conveninente como também proporcionaram oportunidades que seriam consideradas “milagrosas” há alguns anos atrás.

Softwares que fazem transcrição de áudio para texto têm uma variedade de usos e a lista continua crescendo dia após dia. Algumas das áreas que se beneficiaram com o desenvolvimento dessa tecnologia são: saúde, atendimento ao consumidor, jornalismo, pesquisas qualitativas, entre outras. Para essas indústrias, a evolução da transcrição de texto foi revolucionária.

Por que precisamos da transcrição automática de texto?

Profissionais de diversas áreas precisam de transcrições de alta qualidade para desempenhar as suas funções do dia-a-dia. A evolução progressiva da tecnologia de reconhecimento de fala torna essa tarefa mais rápida, conveniente e mais acessível do que a transcrição manual.

Apesar da tecnologia ainda não ter alcançado níveis de precisão humanos, a precisão chega a 95% em alguns dos casos. Serviços de transcrição manual costumavam demandar tempo e dinheiro mas, com o auxílio da tecnologia, a contribuição humana pode se centrar nos ajustes.

Mais uma razão: Acessibilidade Digital

Por que Reconhecimento de Voz está em alta na Europa? A resposta é simples – acessibilidade digital. Conforme descrito na normativa 2016/2012 do Conselho Europeu, governos precisam agir para garantir acesso igualitário à informação. Podcasts, gravações de vídeo e áudio precisam oferecer uma versão transcrita ou incluir legendas para torná-los acessíveis às pessoas surdas ou com dificuldades de audição.

Como funciona o Reconhecimento automático de voz?

PS – Caso queria pular a leitura, você pode ir diretamente ao infográfico no final dessa página.

O coração da ferramenta de transcrição automática é o sistema de reconhecimento de voz. Em resumo, esses sistemas são compostos de elementos acústicos e linguísticos que funcionam em diversos terminais.

O componente acústico é responsável por converter o áudio do seu arquivo em uma sequência de unidades acústicas – amostras super pequenas de som. Você já viu o formato de uma onda de som? É o que chamamos de sons analógicos ou vibrações que você cria quando fala. Elas são convertidas em sinais digitais para que o software possa analisa-las. Então, essas unidades acústicas são combinadas com os fonemas existentes – que são os sons que criamos e usamos nos idiomas para nos expressar.

Então o componente acústico é responsável por converter essas sequências de unidades acústicas em palavras, frases e parágrafos. Muitas palavras têm sons similares mas significados completamente diferentes, como paz e pais.

Examplo: Na “Ele permite” a letra “e” quase não é pronunciada. O componente linguístico pode determinar que a palavra contém o “e” no final porque foi precedida por “ele”.

Você pode facilmente testar isso com qualquer software de voz. O tradutor do Google tem modelos de linguagem por trás. Você usar a digitação por voz para adicionar qualquer palavra que tem vários significados. Quando você adicionar uam segunda palavra ou frase que dê mais contexto a primeira, você obterá uma tradução ou transcrição mais precisa.

Antes que você comece a usar o software para transcrição automática, esses componentes precisam ser treinados para entender um idioma específico. Ambos, a parte acústica (o que foi falado e gravado) e a parte linguística ( o que foi dito) são críticos para um resultado preciso.

Aqui na Amberscript, estamos constantemente melhorando os componentes acústicos e linguísticos para aperfeiçoar nossa ferramenta de reconhecimento de voz.

Supresa…existe outro modelo!

Também existe algo chamado “modelo de orador“. O software de reconhecimento de fala pode ser dependente do orador ou independente do orador.

O modelo dependente do orador é treinado para uma voz específica, como é o caso da solução oferecida pela Dragon. Você também pode treinar a Siri, o Google ou a Cortana para reconhecer apenas a sua voz ( em outras palavras, você está tornando o modelo dependente de orador).

Isso geralmente leva a uma transcrição mais precisa para um uso particular mas é preciso tempo para treinar o modelo para entender a sua voz. Além disso, o modelo dependente de orador não é flexível e não pode ser usado com confiança em situações como a de uma conferência.

Você provavelmente já adivinhou – modelos independentes de orador podem reconhecer várias vozes diferentes sem treinamento específico. Esse é o formato que usamos no nosso software da Amberscript.

Todas as ferramentas de reconhecimento de voz são a mesma coisa?

Não! Existem muitas ferramentas de voz para texto com usos diferentes. Algumas são designadas para tarefas simples e repetitivas e outras são incrivelmente avançadas. Vamos dar uma olhada nos diferentes níveis de reconhecimento de voz:

1) Você já ligou para uma empresa e escutou a máquina pedindo para você deixar o seu número? Essa é a ferramenta mais simples de reconhecimento de voz e funciona com combinações de padrão, com vocabulário limitado, mas funciona (nesse caso, entende números).

3) O último nível de reconhecimento de voz é baseado nas redes neurais artificiais – essencialmente tem a capacidade de aprender sozinho. As ferramentas do Google, da Microsoft e nossa ferramenta funcionam dessa maneira, impulsionadas por Inteligência Artificial.

Software de voz para texto. Expectativas versus Realidade

Apesar dos altos avanços na última década em tecnologia de reconhecimento de voz, ainda existem muitos desafios nessa área. Algumas limitações são:

  • As condições da gravação. A performance tanto de humanos como de máquinas depende muito da qualidade da gravação. Reconhecimento de voz ainda apanha para reconhecer discursos onde há muito barulho no ambiente ou muitas pessoas falando ao mesmo tempo.
  • Reconhecimento de alguns dialetos e sotaques. Idiomas são estruturas complexas, e cada pessoa fala de uma maneira diferente. Uma multitude de dialetos e sotaques cria desafios adicionais para o modelo. No entanto, essa complexidade pode ser administrada com a coleta de diferentes tipos de dados.
  • Entendendo homônimos. Homônimos são palavras com o mesmo som mas significados e grafias diferentes. Por exemplo: assento e acento. Escolher a palavra certa requer entender o contexto. Apesar das ferramentas modernas de reconhecimento de voz utilizarem modelos avançados de Inteligência Artificial, isso ainda continua sendo um desafio.

O que torna a Amberscript tão precisa?

Nossa ferramenta alcança até 95% de precisão – o que era um nivel impossível para a língua holandesa. Explicamos, com orgulho, como atingimos esse patamar:

  • Arquitetura e modelos inteligentes. Temos orgulho de contar com um time brilhante de cientistas linguísticos que desenvolveram um modelo sofisticado de linguagem que segue em constante desenvolvimento.
  • Grandes quantidades de dados para treinamento. O software de fala para texto requer aprendizagem. Em outras palavras, quanto mais dados vocês coloca no sistema, mais ele aprende. Nós coletamos terabytes de dados até alcançar esse nível de qualidade.
  • Dados balanceados. Para aperfeiçoar o algoritmo, usamos vários tipos de dados. Nossos especialistas obtiveram amostras suficientes de ambos os gêneros, assim como diferentes sotaques e tons de voz.
  • Diferentes cenários explorados. Testamos nosso modelo em várias condições acústicas para garantir uma performance estável em diferentes tipos de gravações.

Processamento de Linguagem (NLU) – A proxima evolução em reconhecimento de voz.

Vamos discutir qual será o próximo passo na indústria, isso é – Processamento Natural de Linguagem (NLU em inglês). É um ramo da Inteligência Artificial que explora como máquinas entendem e interpretam a linguagem humana. Processamento Natural de Linguagem permite que a tecnologia não apenas transcreva mas também entenda o significado por detrás dela. Em outras palavras, adicionar NLU ao conversor de áudio para texto e como anexar um cérebro humano a ele.

O NLU mira no maior desafio do reconhecimento de voz – entender e trabalhar com um contexto único.

O que é possível fazer com Processamento Natural de Linguagem?

  • Tradução automática. Isso é algo que já está sendo usado no Skype. Se você fala em um idioma e a sua voz é automaticamente transcrita em texto em outro idioma. Você pode encarar isso como o próximo passo do Google tradutor. Só isso já tem um potencial enorme – imagina o quanto mais fácil fica se comunicar quando você não fala um determinado idioma.
  • Resumo de documento. Vivemos em um mundo cheio de dados. Talvez exista informação demais do lado de fora. Imagina ter um resumo instantâneo de um artigo ou email?
  • Categorização de conteúdo. Parecido com o ponto anterior, mas o conteúdo pode ser dividido em temas ou assuntos. Essa funcionalidade já é utilizada em canais como o Google e Youtube.
  • Análise de sentimento. Essa técnica busca identificar as percepções humanas e opiniões através de uma análise sistemática de blogs, avaliações e mesmo tweets. Essa prática já está sendo implementada em muitas empresas, particularmente naquelas ativas nas mídias sociais.

Sim, estamos indo nessa direção! Não sabemos se terminará em um mundo com robôs amigáveis ou no Matrix mas as máquinas já podem entender emoções humanas básicas.

  • Detecção de plagiarismo. Ferramentas simples de anti-plagiarismo apenas checam se uma amostra de texto é uma cópia exata. Softwares mais sofisticados como Turnitin podem detectar se o conteúdo foi parafraseado tornando a detecção de plagiarismo mais eficiente.

Como é utilizado o Processamento Natural de Linguagem (NLU) atualmente?

Há muitas disciplinas nas quais o processamento natual de linguagem já está sendo aplicado e tem um papel importante. Aqui estão alguns exemplos:

1. Analises de Midias Sociais
2. Pesquisas de psicologia
3. Detecção de email de spam
4. Analises de voz em call centers
5. E até…desvendando crimes.

Qual é o próximo passo?

Atualmente, estamos integrando algoritmos de NLU em nossos sistemas para tornar o nosso software de reconhecimento de fala ainda mais inteligente e utiliza-lo em uma série de casos.

Esperamos que você tenha entendido um pouco mais sobre esse campo fascinante do reconhecimento de voz! Fique a vontade para olhar o nosso blog para mais artigos como esse.

Nossos serviços permitem criar textos e legendas a partir de áudio ou vídeo.

* Carregue um arquivo de áudio ou vídeo
* Conversão automática ou manual para texto
* Edite e exporte texto ou legendas

O nosso aplicativo já está disponível!

O nosso aplicativo já está disponível!

Mais info