Como funciona o reconhecimento de voz para transcrição de áudio?
Andrei Cucleschin, 11 Julho 2019
COMPARTILHAR :
Andrei Cucleschin, 11 Julho 2019
COMPARTILHAR :
Com a introdução de softwares de reconhecimento de voz como o Alexa, Siri, Cortana, assistente do Google, a transcrição de áudio começou a substituir a digitação e mudou a maneira como interagimos com aparelhos eletrônicos.
Os desenvolvimentos recentes da tecnologia de reconhecimento de voz não apenas deixaram a nossa vida mais conveninente como também proporcionaram oportunidades que seriam consideradas “milagrosas” há alguns anos atrás.
Softwares que fazem transcrição de áudio para texto têm uma variedade de usos e a lista continua crescendo dia após dia. Algumas das áreas que se beneficiaram com o desenvolvimento dessa tecnologia são: saúde, atendimento ao consumidor, jornalismo, pesquisas qualitativas, entre outras. Para essas indústrias, a evolução da transcrição de texto foi revolucionária.
Profissionais de diversas áreas precisam de transcrições de alta qualidade para desempenhar as suas funções do dia-a-dia. A evolução progressiva da tecnologia de reconhecimento de fala torna essa tarefa mais rápida, conveniente e mais acessível do que a transcrição manual.
Apesar da tecnologia ainda não ter alcançado níveis de precisão humanos, a precisão chega a 95% em alguns dos casos. Serviços de transcrição manual costumavam demandar tempo e dinheiro mas, com o auxílio da tecnologia, a contribuição humana pode se centrar nos ajustes.
Por que Reconhecimento de Voz está em alta na Europa? A resposta é simples – acessibilidade digital. Conforme descrito na normativa 2016/2012 do Conselho Europeu, governos precisam agir para garantir acesso igualitário à informação. Podcasts, gravações de vídeo e áudio precisam oferecer uma versão transcrita ou incluir legendas para torná-los acessíveis às pessoas surdas ou com dificuldades de audição.
PS – Caso queria pular a leitura, você pode ir diretamente ao infográfico no final dessa página.
O coração da ferramenta de transcrição automática é o sistema de reconhecimento de voz. Em resumo, esses sistemas são compostos de elementos acústicos e linguísticos que funcionam em diversos terminais.
O componente acústico é responsável por converter o áudio do seu arquivo em uma sequência de unidades acústicas – amostras super pequenas de som. Você já viu o formato de uma onda de som? É o que chamamos de sons analógicos ou vibrações que você cria quando fala. Elas são convertidas em sinais digitais para que o software possa analisa-las. Então, essas unidades acústicas são combinadas com os fonemas existentes – que são os sons que criamos e usamos nos idiomas para nos expressar.
Então o componente acústico é responsável por converter essas sequências de unidades acústicas em palavras, frases e parágrafos. Muitas palavras têm sons similares mas significados completamente diferentes, como paz e pais.
O componente linguístico analiza as palavras precedentes e a sua ligação para estimar a probabilidade de qual palavra será usada na sequência. Os gregos chamam esse modelo de “Modelos de Hidden Markov“, que são vastamente utilizados em softwares de reconhecimento de voz. É assim que mecanismos de reconhecimento de voz são capazes de determinar partes do discursos e finais de palavras (com resultados mistos).
Examplo: Na “Ele permite” a letra “e” quase não é pronunciada. O componente linguístico pode determinar que a palavra contém o “e” no final porque foi precedida por “ele”.
Você pode facilmente testar isso com qualquer software de voz. O tradutor do Google tem modelos de linguagem por trás. Você usar a digitação por voz para adicionar qualquer palavra que tem vários significados. Quando você adicionar uam segunda palavra ou frase que dê mais contexto a primeira, você obterá uma tradução ou transcrição mais precisa.
Antes que você comece a usar o software para transcrição automática, esses componentes precisam ser treinados para entender um idioma específico. Ambos, a parte acústica (o que foi falado e gravado) e a parte linguística ( o que foi dito) são críticos para um resultado preciso.
Aqui na Amberscript, estamos constantemente melhorando os componentes acústicos e linguísticos para aperfeiçoar nossa ferramenta de reconhecimento de voz.
Também existe algo chamado “modelo de orador“. O software de reconhecimento de fala pode ser dependente do orador ou independente do orador.
O modelo dependente do orador é treinado para uma voz específica, como é o caso da solução oferecida pela Dragon. Você também pode treinar a Siri, o Google ou a Cortana para reconhecer apenas a sua voz ( em outras palavras, você está tornando o modelo dependente de orador).
Isso geralmente leva a uma transcrição mais precisa para um uso particular mas é preciso tempo para treinar o modelo para entender a sua voz. Além disso, o modelo dependente de orador não é flexível e não pode ser usado com confiança em situações como a de uma conferência.
Você provavelmente já adivinhou – modelos independentes de orador podem reconhecer várias vozes diferentes sem treinamento específico. Esse é o formato que usamos no nosso software da Amberscript.
Não! Existem muitas ferramentas de voz para texto com usos diferentes. Algumas são designadas para tarefas simples e repetitivas e outras são incrivelmente avançadas. Vamos dar uma olhada nos diferentes níveis de reconhecimento de voz:
1) Você já ligou para uma empresa e escutou a máquina pedindo para você deixar o seu número? Essa é a ferramenta mais simples de reconhecimento de voz e funciona com combinações de padrão, com vocabulário limitado, mas funciona (nesse caso, entende números).
2) O próximo nível de reconhecimento de voz envolve modelos estatísticos e análises (como o de Hidden Markov), que nós já mencionamos aqui.
3) O último nível de reconhecimento de voz é baseado nas redes neurais artificiais – essencialmente tem a capacidade de aprender sozinho. As ferramentas do Google, da Microsoft e nossa ferramenta funcionam dessa maneira, impulsionadas por Inteligência Artificial.
Apesar dos altos avanços na última década em tecnologia de reconhecimento de voz, ainda existem muitos desafios nessa área. Algumas limitações são:
PS – leia esse outro artigo sobre Como melhorar a qualidade do áudio para otimizar a transcrição de áudio para texto.
Nossa ferramenta alcança até 95% de precisão – o que era um nivel impossível para a língua holandesa. Explicamos, com orgulho, como atingimos esse patamar:
Vamos discutir qual será o próximo passo na indústria, isso é – Processamento Natural de Linguagem (NLU em inglês). É um ramo da Inteligência Artificial que explora como máquinas entendem e interpretam a linguagem humana. Processamento Natural de Linguagem permite que a tecnologia não apenas transcreva mas também entenda o significado por detrás dela. Em outras palavras, adicionar NLU ao conversor de áudio para texto e como anexar um cérebro humano a ele.
O NLU mira no maior desafio do reconhecimento de voz – entender e trabalhar com um contexto único.
Sim, estamos indo nessa direção! Não sabemos se terminará em um mundo com robôs amigáveis ou no Matrix mas as máquinas já podem entender emoções humanas básicas.
Há muitas disciplinas nas quais o processamento natual de linguagem já está sendo aplicado e tem um papel importante. Aqui estão alguns exemplos:
1. Analises de Midias Sociais
2. Pesquisas de psicologia
3. Detecção de email de spam
4. Analises de voz em call centers
5. E até…desvendando crimes.
Atualmente, estamos integrando algoritmos de NLU em nossos sistemas para tornar o nosso software de reconhecimento de fala ainda mais inteligente e utiliza-lo em uma série de casos.
Esperamos que você tenha entendido um pouco mais sobre esse campo fascinante do reconhecimento de voz! Fique a vontade para olhar o nosso blog para mais artigos como esse.
COMPARTILHAR :