Skip to content
Blog
4 minuten leestijd
22 jun 2021

Het Nederlandse interpunctiemodel

Topics
Automatische transcriptie

Grammaticale aspecten zoals het gerundium, voorzetsels en werkwoordspelling spelen een niet te onderschatten rol in de meeste talen. Maar heb je er wel eens bij stilgestaan dat ook interpunctie van groot belang is?
Interpunctie is van essentieel belang voor taal. Interpunctie wil zeggen: een juist gebruik van kleine en nauwelijks merkbare tekens. Interpunctie geeft aan hoe lang de tekst is en wat de betekenis van de tekst is.
Hieronder zullen we een nadere blik werpen op het door ons ontwikkelde AI-interpunctiemodel voor ons Nederlandse spraakherkenningsmodel.

De rol van interpunctie in de taal

Interpunctie is een integraal onderdeel van geschreven tekst. Het helpt om de tekst begrijpelijk en coherent te maken. De afwezigheid van interpunctie belemmert de leesbaarheid van de tekst en kan de tekst onbegrijpelijk maken. Daarnaast zorgt een goed gebruik van interpunctie ervoor dat teksten minder ambigu worden. Neem het volgende voorbeeld, waar één komma de betekenis van de tekst compleet kan veranderen:

“Diederik riep zijn toekomstige schoonzus, Lisa en zijn moeder”

vs

“Diederik riep zijn toekomstige schoonzus, Lisa, en zijn moeder”

Het ontbreken van interpunctie kan ook tot ongemakkelijke en onhandige zinnen leiden, zoals deze:

“Ik haal inspiratie uit mijn familie koken en mijn hond”

Interpunctie in spraak-naar-tekst

Om deze reden moeten spraak-naar-tekstsystemen interpunctie bevatten als ze een transcriptie genereren. Normale automatic speech recognition (ASR) systems voegen meestal echter geen leestekens in, omdat ze geen gesproken vorm hebben. Daarnaast bevatten dit soort transcripties alleen maar kleine schrijfletters (en dus geen hoofdletters), wat resulteert in lastig te begrijpen teksten. Een transcriptie met goede interpuntctie helpt tevens bij het automatisch genereren van ondertitelingen voor video’s.

Dit probleem kan opgelost worden door een apart interpunctiemodel te incorporeren. Dit model voegt automatisch interpunctie in bij de output van het ASR-model. Dit kan gecategoriseerd worden als een natural language processing (NLP) problem, waarbij het doel is om elk leesteken (of het gebrek daaraan) te voorspellen bij elk woord in een transcriptie.

Taalmodellen

Deep learning heeft de laatste jaren enorme voortuitgang geboekt, onder andere door toegenomen rekenkracht. Het vakgebied NLP werd veroverd door de introductie van BERT in 2018. BERT is ontwikkeld door Google AI en is een groot taalmodel gebaseerd op transformer architecture. Het werd aangeprezen als het ImageNet-moment van NLP, verwijzend naar hoe ImageNet de vooruitgang in het representatieleren van afbeeldingen op het gebied van computervisie stuurde. BERT is een duidelijke verbetering ten opzichte van eerdere taalrepresentatiemodellen zoals GloVe embeddings en contextuele reprentaties zoals ELMo.

Voor een intuïtieve uitleg over de werking van BERT, verwijzen we je naar deze uitstekende blog post van Jay Alammar. Kort gezegd komt het erop neer dat BERT gertraind wordt op ruwe tekst, onder eigen toezicht — dus zonder menselijke annotaties. Hierbij wordt BERT in het bijzonder op twee vaardigheden getraind: masked language modeling en next scentence prediction. Aan het einde van de training schijnt het model “voorgetraind” te zijn en kan het de semantiek van de taal vastleggen met zijn woord- en zinrepresentaties. Een voorgetrainde BERT kan dan afgesteld worden op een downstream NLP-taak. Toen BERT werd gepubliceerd, bracht het state-of-the-art resultaten voort na het verfijnen van een reeks NLP-taken, waaronder natural language inference (NLI), het beantwoorden van vragen, enz.

Interpunctiemodellen bij Amberscript

Bij Amberscript ontwikkelen we ASR-modellen op maat, een daarvan voor het Nederlands. Zoals eerder opgemerkt, bevatten de transcripties die door het model geproduceerd worden geen leestekens. Op dit moment zijn er geen open-source interpunctiemodellen beschikbaar die specifiek zijn voor de Nederlandse taal. Daarom hebben we op basis van BERT een interpunctiemodel ontwikkeld dat automatisch de volgende interpunctietekens toevoegt: vraagteken, punt, uitroepteken, komma, dubbele punt en puntkomma. Andere interpunctietekens die in paren voorkomen, zoals aanhalingstekens en haakjes, zijn veel moeilijker te bepalen op basis van de tekst alleen.

Transformeer je audio en

video naar tekst en ondertiteling

  • Hoge nauwkeurigheid, service op aanvraag
  • Concurrerende prijzen met de snelste doorlooptijd door gebruik van AI
  • Upload, zoek, bewerk en exporteer met groot gemak

De pijplijn

De gehele ASR-pijplijn bestaat dus uit drie hoofdcomponenten: het ASR-model dat tekst met kleine schrijfletters produceert, een nabewerkingsmodule die hoofdletters zet bij namen (zoals namen van mensen of plekken) en die denormalisatie en spellingscorrecties doorvoert, en een interpunctiemodel dat de benodigde leestekens toevoegt.

Infographic die Amberscripts vijfstappenplan over het interpunctieproces uitlegt — van audio tot voltooide transcriptie
Infographic die Amberscripts vijfstappenplan over het interpunctieproces uitlegt — van audio tot voltooide transcriptie.

Demo

Om het interpunctiemodel in werking te zien, kunnen we deze output van het ASR-model als voorbeeld nemen:

nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen

Het resultaat van het toepassen van nabewerking en het interpunctiemodel is als volgt:

Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.

Merk op dat de uitvoer van het ASR-model moeilijk te lezen is, terwijl het uiteindelijke transcript na het toevoegen van leestekens fijner wegleest.

Toegevoegde interpunctie in transcripties van Amberscript

Als je op zoek bent naar een zuivere en nauwkeurige transcriptie die een goede interpunctie bevat, probeer dan eens de automatische transcriptieservice van Amberscript!
We bieden snelle, nauwkeurige en betaalbare transcriptiemogelijkheden die je workflow zeker zullen verbeteren.
Overigens: als je de meest nauwkeurige transcriptie nodig hebt, probeer dan eens Amberscripts handmatige transcripties.
Onze taalexperts zijn native speakers en zorgen voor de hoogste nauwkeurigheid bij teksten in cleanread (een goed leesbare tekst) of verbatim (een tekst waar alles wordt genoteerd zoals het gesproken wordt).