Skip to content
Blog
21 Feb 2020   Ultimo aggiornamento 19 Aprile 2021

Come funziona un software di riconoscimento vocale?

Topics
Trascrizioni automatiche

Con l’introduzione di software speech to text come Alexa, Cortana, Siri e Google assistant, il riconoscimento vocale ha iniziato a sostituire la digitazione, cambiando interamente la modalità di interazione con i nostri dispositivi digitali.

Qual è lo stato attuale della tecnologia di riconoscimento vocale?

Recenti avanzamenti tecnologici nell’area del riconoscimento vocale non solo hanno contribuito a rendere le nostre vite più facili e il nostro flusso di lavoro più produttivo, ma hanno anche aperto una serie di opportunità impensabili in passato.

I software di riconoscimento vocale hanno una vastissima gamma di impieghi, e la lista è in continua crescita. Servizio clienti migliorato, meno burocrazia nella sanità, ricerche qualitative semplificate – e questi sono solo alcune delle industrie in cui il riconoscimento vocale ha avuto grande impatto.

Perchè abbiamo bisogno della Trascrizione Automatica?

Professionisti in vari campi necessitano di trascrizioni di alta qualità per svolgere le loro attività lavorative. La tecnologia dietro al riconoscimento vocale avanza velocemente, rendendo sempre più semplice, economico e conveniente trascrivere con un software piuttosto che manualmente.

Nonostante la tecnologia non riesca ad oggi a raggiungerela perfezione, alcuni software raggiungono fino al 95% di precisione. La trascrizione in passato richiedeva moltissimo tempo e impegno, mentre ora la porzione di lavoro svolta dagli esseri umani è minima.

Una ragione in più – L’accessibilità digitale

Perchè il riconoscimento vocale sta diventando un argomento così popolare in Europa? La risposta è molto semplice: accessibilità digitale. Come delineato nella Direttiva Europea 2016/2012, gli stati membri devono attuare misure per assicurarsi che tutti abbiano uguale possibilità di accesso all’informazione. Registrazioni audio e video e podcast dovranno essere equipaggiate di sottotitoli o trascrizioni, per garantirne la fruizione anche da parte di persone con disabilità uditive.

Come funziona il riconoscimento vocale automatico?

P.s: se al momento non hai molto tempo per leggere, passa direttamente alle infografiche in fondo alla pagina!

Il punto chiave di ogni servizio di trascrizione è il riconoscimento vocale automatico. Questo sistema è composto da elementi di acustica e linguistica eseguiti su uno o più computers.

Il componente di acustica è responsabile di convertire l’audio del tuo file in una sequenza di unità acustiche – piccoli elementi del suono. Hai mai visto la forma delle onde sonore? Questo è ciò che chiamiamo suono o vibrazione analogica. Quando parli viene converto in segnali digitali, in modo che il software possa analizzarli. Quindi, le unità acustiche sono abbinate ai “fonemi” esistenti – questi sono i suoni che usiamo nella nostra lingua per pronunciare parole e frasi di senso compiuto.

Successivamente, la componente linguistica è responsabile della conversione di queste sequenze di unità acustiche in parole, frasi e paragrafi. Ci sono molte parole che suonano simili, ma significano cose completamente diverse, come pèsca (frutto) e pésca (voce del verbo pescare).

La componente linguistica analizza tutte le parole precedenti e la loro correlazione, calcolando quale tra le diverse varianti è la più adatta a seconda del contesto. Questi calcoli vengono fatti attraverso ciò che gli esperti chiamano “modelli nascosti di Markov” – e sono ampiamente utilizzati in tutti i software di riconoscimento vocale. È così che i sistemi di riconoscimento vocale determinano parti di parole e finali (con vari livello di accuratezza).

Puoi facilmente testarlo nella vita reale: come qualsiasi altra applicazione di riconoscimento vocale, Google Translate ha dietro di sé dei modelli linguistici. Puoi digitare una parola a caso con diversi significati e quindi fornire un contesto al traduttore (inserendo una parola in una frase): è molto probabile che visualizzi trascrizioni e traduzioni più accurate.

Prima di poter utilizzare un servizio di trascrizione automatica, questi sistemi devono essere addestrati in modo appropriato per comprendere una lingua specifica. Sia la parte acustica del tuo contenuto, cioè il modo in cui viene parlato e registrato, sia la parte linguistica, cioè ciò che viene detto, sono fondamentali per l’accuratezza risultante della trascrizione.

Qui ad Amberscript, stiamo costantemente migliorando i nostri componenti acustici e linguistici al fine di perfezionare il nostro sistema di riconoscimento vocale.

Sorpresa … c’è un altro modello!

C’è anche un modello chiamato “modello dell’interlocutore”. Il software di riconoscimento vocale può essere dipendente o indipendente dall’interlocutore.

Il modello dipendente dall’interlocutore è addestrato per una voce specifica, come la soluzione di sintesi vocale di Dragon. Puoi anche addestrare Siri, Google e Cortana a riconoscere solo la tua voce (in altre parole, l’assistente vocale diventa dipendente dall’interlocutore).

Di solito questo implica una maggiore accuratezza per il tuo caso d’uso particolare, ma richiede tempo per essere addestrato a riconoscere la tua voce. Inoltre, non è flessibile e non può essere utilizzato in modo affidabile in molte sistuazioni, come le conferenze e congressi dove molte persone parlano.

Probabilmente hai indovinato: il modello indipendente dall’interlocutore può riconoscere molte voci diverse senza alcuna formazione specifica. Questo è ciò che attualmente utilizziamo ad Amberscript.

Tutti i sistemi di riconoscimento vocale sono uguali?

No! Esistono molti sistemi di sintesi vocale che servono per scopi diversi. Alcuni di essi sono progettati per semplici compiti ripetitivi, altri sono incredibilmente avanzati. Diamo un’occhiata ai diversi livelli di precisione del riconoscimento vocale.

1) Ti sarà sicuramente capitato di chiamare un’azienda e di ricevere una risposta automatica, nella quale ti viene chiesto di lasciare il tuo numero di telefono. Ecco, questo è il sistema di riconoscimento vocale più semplice, che funziona sulla corrispondenza di modelli e ha un vocabolario limitato, ma funziona perfettamente per il caso d’uso (in questo caso, capire le cifre).

2) Un livello di riconoscimento vocale più avanzato prevede analisi statistiche e modelli (come Hidden Markov Models) – ne abbiamo già parlato in una delle sezioni precedenti.

3) Il massimo livello di riconoscimento vocale si basa su reti neurali artificiali – essenzialmente offre al sistema la possibilità di apprendere e migliorare se stesso. Google, Microsoft e il nostro software sono basati sull’apprendimento automatico.

Software di sintesi vocale: aspettative vs. realtà

Sebbene la tecnologia di riconoscimento vocale dell’ultimo decennio abbia fatto passi da gigante, il software di sintesi vocale presenta ancora una serie di sfide. Le attuali limitazioni del software di sintesi vocale sono:

– Condizioni di registrazione. Le prestazioni della trascrizione, sia umana che automatizzata, dipendono in gran parte dalle condizioni di registrazione. Il software di riconoscimento vocale fa ancora fatica a interpretare il parlato in un ambiente particolarmente rumoroso o quando molte persone parlano allo stesso tempo.

P.s: consulta questo post per apprendere alcuni consigli pratici che miglioreranno la qualità della tua trascrizione automatica.

– Riconoscimento di alcuni dialetti e accenti. La lingua è una struttura complessa e tutti parlano in modo leggermente diverso. Una moltitudine di dialetti e accenti creano ulteriore complessità per il modello. Tuttavia, questa complessità può essere gestita raccogliendo diversi tipi di dati.

Cosa rende il motore di Amberscript così preciso?

Si stima che il nostro motore raggiunga una precisione fino al 95%: questo livello di qualità era precedentemente sconosciuto al mercato olandese. Siamo più che felici di condividere da dove provengono queste prestazioni senza pari:

Architettura e modellistica intelligenti. Siamo orgogliosi di lavorare con un team di talentuosi scienziati del linguaggio che hanno sviluppato un modello linguistico sofisticato, aperto a continuo miglioramento.

Grandi quantità di materiale di formazione. Il software di sintesi vocale si basa sull’apprendimento automatico. In altre parole, più dati vengono alimentati dal sistema, migliori sono le prestazioni. Abbiamo raccolto terabyte di dati per raggiungere un livello di qualità così elevato.

Dati bilanciati. Per perfezionare il nostro algoritmo, abbiamo usato vari tipi di dati. I nostri specialisti hanno ottenuto una dimensione del campione sufficiente per entrambi i sessi, nonché diversi accenti e toni di voce.

Esplorazione dello scenario. Abbiamo testato il nostro modello in varie condizioni acustiche per garantire prestazioni stabili in diverse impostazioni di registrazione.

Comprensione del linguaggio naturale: la prossima grande novità nel riconoscimento vocale

Discutiamo del prossimo importante passo avanti per l’intero settore, ovvero la comprensione del linguaggio naturale (o NLU). È una branca dell’intelligenza artificiale, che esplora il modo in cui le macchine possono comprendere e interpretare il linguaggio umano. La comprensione del linguaggio naturale consente alla tecnologia di riconoscimento vocale non solo di trascrivere il linguaggio umano, ma di comprenderne il significato. In altre parole, aggiungere algoritmi NLU è come aggiungere un cervello a un convertitore da parlato a testo.

Il NLU mira ad affrontare la sfida più ardua del riconoscimento vocale: comprendere e lavorare anche in contesti unici nel loro genere.

Quali sono le applicazioni della tecnologia di comprensione del linguaggio naturale?

– Traduzione Automatica. È qualcosa che è già in uso su Skype. Parli in una lingua e la tua voce viene automaticamente trascritta in testo in un’altra lingua. Puoi pensarlo come il prossimo livello di Google Translate. Questo da solo ha un enorme potenziale: immagina quanto diventa più facile comunicare con persone che non parlano la tua lingua.

– Riepilogo dei documenti. Viviamo in un mondo pieno di dati. Forse ci sono troppe informazioni là fuori. Immagina di avere un riassunto istantaneo di un articolo, un saggio o un’e-mail.

– Classificazione dei contenuti. Simile aò punto precedente, il contenuto può essere ridotto in temi o argomenti distintivi. Questa funzione è già implementata nei motori di ricerca, come Google e YouTube.

– Analisi del sentimento. Questa tecnica ha lo scopo di identificare le percezioni e le opinioni umane attraverso un’analisi sistematica di blog, recensioni o persino tweet. Questa pratica è già implementata da molte aziende, in particolare quelle attive sui social media.

Sì, ci stiamo dirigendo proprio in questa direzione! Non sappiamo se finiremo in un mondo pieno di robot amichevoli o quello di Matrix, ma le macchine possono già comprendere le emozioni umane di base.

– Rilevazione del plagio. Semplici strumenti di plagio controllano solo se un contenuto è una copia diretta. Software avanzati come Turnitin sono già in grado di rilevare se lo stesso contenuto è stato parafrasato, rendendo molto più accurato il rilevamento del plagio.

Dove viene applicato il NLU al giorno d’oggi?

Esistono molte discipline in cui il NLU (come sottoinsieme di Natural Language Processing) svolge già un ruolo enorme. Ecco alcuni esempi:

  1. Analisi dei social media
  2. Ricerca in psicologia
  3. Rilevamento di e-mail di spam
  4. Utilizzo dell’analisi vocale nei call center
  5. Anche … risolvere i crimini

Qual è il prossimo passo?

Al momento stiamo integrando algoritmi NLU nei nostri sistemi per rendere il nostro software di riconoscimento vocale ancora più intelligente e applicabile in una più ampia gamma di applicazioni.

I nostri servizi permettono di creare testo e sottotitoli da audio o video.

* Carica file audio o video
* Conversione automatica o manuale in testo
* Modifica ed esporta testo o sottotitoli

La nostra app è ora disponibile!

La nostra app è ora disponibile!

Più info