Skip to content
Blog
4 minuti di lettura
7 Mar 2023

Modello di punteggiatura olandese

Topics
Trascrizioni automatiche

Gli aspetti grammaticali come il gerundio, le preposizioni e le regole grammaticali di base giocano un ruolo importante nella maggior parte delle lingue conosciute. Hai mai pensato al fatto che anche la punteggiatura svolge un ruolo fondamentale?

La punteggiatura è importante nel linguaggio. Essa implica la corretta disposizione di piccoli segni, a volte poco evidenti, nei luoghi appropriati per indicare l’esatta lunghezza e il significato della frase.

Nel testo che segue, daremo un’occhiata più da vicino al modello di punteggiatura AI che abbiamo sviluppato per il nostro modello di riconoscimento vocale della lingua olandese.

Il ruolo della punteggiatura nel linguaggio

La punteggiatura è parte integrante del testo scritto e contribuisce a renderlo comprensibile e coerente. L’assenza di punteggiatura ostacola la leggibilità e può rendere i testi incomprensibili. Inoltre, i segni di punteggiatura riducono l’ambiguità. Considera questo esempio in cui una virgola può alterare completamente il significato di una frase:

“Most of the time travellers worry about their luggage”

vs

“Most of the time, travellers worry about their luggage”

La mancanza di punteggiatura può anche portare a frasi imbarazzanti, come in questo classico esempio:

“I find inspiration in cooking my family and my dog”

Punteggiatura nel parlato-testo

I sistemi speech-to-text devono quindi includere la punteggiatura quando producono una trascrizione. I tipici sistemi di riconoscimento automatico vocale (ASR), tuttavia, non producono segni di punteggiatura perché non hanno una forma parlata. Inoltre, la trascrizione generata è composta solo da parole minuscole, il che la rende difficile da capire. Una trascrizione correttamente punteggiata aiuta anche la generazione automatica di sottotitoli per i video.

Questo problema può essere risolto incorporando un modello di punteggiatura separato in grado di aggiungere automaticamente la punteggiatura all’output di un modello ASR. Può essere considerato un problema di elaborazione del linguaggio naturale (NLP) in cui l’obiettivo è prevedere il segno di punteggiatura (o la sua mancanza) per ogni parola in una trascrizione.

How to Transcribe Fast: 10 Tips

Leggi come funziona il riconoscimento vocale automatico

Leggi l'articolo

Modelli linguistici

L’apprendimento profondo ha registrato enormi progressi negli ultimi anni, alimentati dall’aumento della potenza di calcolo. Il campo dell’NLP è stato preso d’assalto dall’introduzione di BERT nel 2018. Sviluppato da Google AI, BERT è un modello linguistico di grandi dimensioni basato sull’architettura transformer. È stato definito il momento ImageNet dell’NLP, in riferimento al modo in cui ImageNet ha guidato i progressi nell’apprendimento delle rappresentazioni dalle immagini nel campo della computer vision. BERT rappresenta un netto miglioramento rispetto ai modelli di rappresentazione linguistica precedenti, come GloVe embeddings, e alle rappresentazioni contestuali come ELMo.

Per una spiegazione intuitiva del funzionamento di BERT, consulta questo eccellente blog di Jay Alammar. In parole povere, viene addestrato su testi grezzi in modo auto-supervisionato, cioè senza annotazioni umane. In particolare, viene addestrato su due compiti: la modellazione del linguaggio mascherato e la previsione della frase successiva. Al termine dell’addestramento, il modello è detto “pre-addestrato” e cattura la semantica del linguaggio con le sue rappresentazioni di parole e frasi. Un BERT pre-addestrato può quindi essere messo a punto su un compito NLP a valle. Quando è stato pubblicato, il BERT ha prodotto risultati all’avanguardia dopo la messa a punto su una serie di compiti di NLP, tra cui l’inferenza del linguaggio naturale (NLI), la risposta alle domande, ecc.

Modello di punteggiatura in Amberscript

In Amberscript sviluppiamo modelli ASR personalizzati, uno dei quali per l’olandese. Come già detto, le trascrizioni prodotte dal modello sono prive di segni di punteggiatura. Attualmente non esistono modelli di punteggiatura open-source specifici per la lingua olandese. Pertanto, abbiamo sviluppato un modello di punteggiatura basato su BERT per aggiungere automaticamente i seguenti segni di punteggiatura: punto interrogativo, punto, punto esclamativo, virgola, due punti e punto e virgola. Altri segni di punteggiatura che si presentano in coppia, come le virgolette e le parentesi, sono molto più difficili da determinare solo sulla base del testo.

La pipeline

L’intera pipeline ASR è costituita da tre componenti principali: il modello ASR che produce testo in minuscolo, un modulo di post-elaborazione che capitalizza le entità nominate (nomi di persone, luoghi, ecc.), esegue la denormalizzazione dei numeri, le correzioni ortografiche, ecc. e infine un modello di punteggiatura che aggiunge i segni di interpunzione necessari.

modello di punteggiatura olandese

Demo

Per mostrare il modello di punteggiatura in azione, possiamo prendere questo esempio di output del modello ASR:

nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen

Il risultato dell’applicazione della post-elaborazione e del modello di punteggiatura è il seguente:

Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.

Si noti che l’output del modello ASR è difficile da leggere, mentre la trascrizione finale dopo l’aggiunta dei segni di punteggiatura è più naturale.

Punteggiatura inclusa nelle trascrizioni di Amberscript

Se sei alla ricerca di una trascrizione pulita e accurata, che includa la giusta punteggiatura, dovresti provare a utilizzare un servizio di trascrizione automatico di Amberscript.

Offriamo opzioni di trascrizione veloci, accurate e convenienti che sicuramente miglioreranno i tuoi flussi di lavoro. Inoltre, se hai bisogno della trascrizione più accurata, dovresti provare la trascrizione professionale di Amberscript. I nostri esperti linguistici sono madrelingua e creano testi di altissima precisione in formato lettura (testo reso più leggibile) o formato letterale (tutte le parole vengono scritte esattamente come sono state pronunciate).