Blog

Het Nederlandse interpunctiemodel

8 jun 2021 4 minuten leestijd

Grammaticale aspecten zoals het gerundium, voorzetsels en werkwoordspelling spelen een niet te onderschatten rol in de meeste talen. Maar heb je er wel eens bij stilgestaan dat ook interpunctie van groot belang is?
Interpunctie is van essentieel belang voor taal. Interpunctie wil zeggen: een juist gebruik van kleine en nauwelijks merkbare tekens. Interpunctie geeft aan hoe lang de tekst is en wat de betekenis van de tekst is.
Hieronder zullen we een nadere blik werpen op het door ons ontwikkelde AI-interpunctiemodel voor ons Nederlandse spraakherkenningsmodel.

De rol van interpunctie in de taal

Interpunctie is een integraal onderdeel van geschreven tekst. Het helpt om de tekst begrijpelijk en coherent te maken. De afwezigheid van interpunctie belemmert de leesbaarheid van de tekst en kan de tekst onbegrijpelijk maken. Daarnaast zorgt een goed gebruik van interpunctie ervoor dat teksten minder ambigu worden. Neem het volgende voorbeeld, waar één komma de betekenis van de tekst compleet kan veranderen:

“Diederik riep zijn toekomstige schoonzus, Lisa en zijn moeder”

“Diederik riep zijn toekomstige schoonzus, Lisa, en zijn moeder”

Het ontbreken van interpunctie kan ook tot ongemakkelijke en onhandige zinnen leiden, zoals deze:

“Ik haal inspiratie uit mijn familie koken en mijn hond”

Interpunctie in spraak-naar-tekst

Om deze reden moeten spraak-naar-tekstsystemen interpunctie bevatten als ze een transcriptie genereren. Normale automatic speech recognition (ASR) systems voegen meestal echter geen leestekens in, omdat ze geen gesproken vorm hebben. Daarnaast bevatten dit soort transcripties alleen maar kleine schrijfletters (en dus geen hoofdletters), wat resulteert in lastig te begrijpen teksten. Een transcriptie met goede interpuntctie helpt tevens bij het automatisch genereren van ondertitelingen voor video’s.

Dit probleem kan opgelost worden door een apart interpunctiemodel te incorporeren. Dit model voegt automatisch interpunctie in bij de output van het ASR-model. Dit kan gecategoriseerd worden als een natural language processing (NLP) problem, waarbij het doel is om elk leesteken (of het gebrek daaraan) te voorspellen bij elk woord in een transcriptie.

Taalmodellen

Deep learning heeft de laatste jaren enorme voortuitgang geboekt, onder andere door toegenomen rekenkracht. Het vakgebied NLP werd veroverd door de introductie van BERT in 2018. BERT is ontwikkeld door Google AI en is een groot taalmodel gebaseerd op transformer architecture. Het werd aangeprezen als het ImageNet-moment van NLP, verwijzend naar hoe ImageNet de vooruitgang in het representatieleren van afbeeldingen op het gebied van computervisie stuurde. BERT is een duidelijke verbetering ten opzichte van eerdere taalrepresentatiemodellen zoals GloVe embeddings en contextuele reprentaties zoals ELMo.

Voor een intuïtieve uitleg over de werking van BERT, verwijzen we je naar deze uitstekende blog post van Jay Alammar. Kort gezegd komt het erop neer dat BERT gertraind wordt op ruwe tekst, onder eigen toezicht — dus zonder menselijke annotaties. Hierbij wordt BERT in het bijzonder op twee vaardigheden getraind: masked language modeling en next scentence prediction. Aan het einde van de training schijnt het model “voorgetraind” te zijn en kan het de semantiek van de taal vastleggen met zijn woord- en zinrepresentaties. Een voorgetrainde BERT kan dan afgesteld worden op een downstream NLP-taak. Toen BERT werd gepubliceerd, bracht het state-of-the-art resultaten voort na het verfijnen van een reeks NLP-taken, waaronder natural language inference (NLI), het beantwoorden van vragen, enz.

Interpunctiemodellen bij Amberscript

Bij Amberscript ontwikkelen we ASR-modellen op maat, een daarvan voor het Nederlands. Zoals eerder opgemerkt, bevatten de transcripties die door het model geproduceerd worden geen leestekens. Op dit moment zijn er geen open-source interpunctiemodellen beschikbaar die specifiek zijn voor de Nederlandse taal. Daarom hebben we op basis van BERT een interpunctiemodel ontwikkeld dat automatisch de volgende interpunctietekens toevoegt: vraagteken, punt, uitroepteken, komma, dubbele punt en puntkomma. Andere interpunctietekens die in paren voorkomen, zoals aanhalingstekens en haakjes, zijn veel moeilijker te bepalen op basis van de tekst alleen.

De pijplijn

De gehele ASR-pijplijn bestaat dus uit drie hoofdcomponenten: het ASR-model dat tekst met kleine schrijfletters produceert, een nabewerkingsmodule die hoofdletters zet bij namen (zoals namen van mensen of plekken) en die denormalisatie en spellingscorrecties doorvoert, en een interpunctiemodel dat de benodigde leestekens toevoegt.

Infographic die Amberscripts vijfstappenplan over het interpunctieproces uitlegt — van audio tot voltooide transcriptie.

Demo

Om het interpunctiemodel in werking te zien, kunnen we deze output van het ASR-model als voorbeeld nemen:

nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen

Het resultaat van het toepassen van nabewerking en het interpunctiemodel is als volgt:

Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.

Merk op dat de uitvoer van het ASR-model moeilijk te lezen is, terwijl het uiteindelijke transcript na het toevoegen van leestekens fijner wegleest.

Toegevoegde interpunctie in transcripties van Amberscript

Als je op zoek bent naar een zuivere en nauwkeurige transcriptie die een goede interpunctie bevat, probeer dan eens de automatische transcriptieservice van Amberscript!
We bieden snelle, nauwkeurige en betaalbare transcriptiemogelijkheden die je workflow zeker zullen verbeteren.
Overigens: als je de meest nauwkeurige transcriptie nodig hebt, probeer dan eens Amberscripts handmatige transcripties.
Onze taalexperts zijn native speakers en zorgen voor de hoogste nauwkeurigheid bij teksten in cleanread (een goed leesbare tekst) of verbatim (een tekst waar alles wordt genoteerd zoals het gesproken wordt).

Terug naar blog

Meest gelezen

Gegevensbescherming bij transcriptiesoftware: hier moet je op letten

26 feb 2026

Gegevenssoevereiniteit bij transcriptie en ondertiteling: een prioriteit voor risicobeheer

23 feb 2026

Spraak naar tekst omzetten met hoge nauwkeurigheid

28 nov 2025

Het Nederlandse interpunctiemodel

De rol van interpunctie in de taal

Interpunctie in spraak-naar-tekst

Taalmodellen

Interpunctiemodellen bij Amberscript

Transformeer je audio en

video naar tekst en ondertiteling

De pijplijn

Demo

Toegevoegde interpunctie in transcripties van Amberscript

Meest gelezen

Gegevensbescherming bij transcriptiesoftware: hier moet je op letten

Gegevenssoevereiniteit bij transcriptie en ondertiteling: een prioriteit voor risicobeheer

Spraak naar tekst omzetten met hoge nauwkeurigheid

Producten

Producten

Bedrijfsoplossingen

Bedrijfsoplossingen

Hulpmiddelen

Hulpmiddelen

Ons bedrijf

Ons bedrijf

Naar welke dienst ben je op zoek?

Hoeveel uren aan content wil je laten transcriberen?

Hoe kunnen we je bereiken?

Heb je minder dan 6 uur aan content om te transcriberen?

Hoeveel minuten aan content wil je laten transcriberen? *

Kun je ons meer details geven?

Hoe kunnen we je bereiken?

Hoeveel minuten aan content wil je ondertiteld hebben? *

Kun je ons meer details geven?

Hoe kunnen we je bereiken?

Hoeveel uren aan content wil je ondertiteld hebben? *

Hoeveel minuten aan content wil je ondertiteld hebben? *

Kun je ons meer details geven?

Hoe kunnen we je bereiken?

Voor welk volume aan content heeft u onze diensten nodig?

Bedankt! We hebben je aanvraag ontvangen.

Het Nederlandse interpunctiemodel

De rol van interpunctie in de taal

Interpunctie in spraak-naar-tekst

Taalmodellen

Interpunctiemodellen bij Amberscript

Transformeer je audio en video naar tekst en ondertiteling

De pijplijn

Demo

Toegevoegde interpunctie in transcripties van Amberscript

Meest gelezen

Gegevensbescherming bij transcriptiesoftware: hier moet je op letten

Gegevenssoevereiniteit bij transcriptie en ondertiteling: een prioriteit voor risicobeheer

Spraak naar tekst omzetten met hoge nauwkeurigheid

Producten

Bedrijfsoplossingen

Hulpmiddelen

Ons bedrijf

Naar welke dienst ben je op zoek?

Hoeveel uren aan content wil je laten transcriberen?

Hoe kunnen we je bereiken?

Heb je minder dan 6 uur aan content om te transcriberen?

Hoeveel minuten aan content wil je laten transcriberen? *

Kun je ons meer details geven?

Hoe kunnen we je bereiken?

Hoeveel minuten aan content wil je ondertiteld hebben? *

Kun je ons meer details geven?

Hoe kunnen we je bereiken?

Hoeveel uren aan content wil je ondertiteld hebben? *

Hoeveel minuten aan content wil je ondertiteld hebben? *

Kun je ons meer details geven?

Hoe kunnen we je bereiken?

Voor welk volume aan content heeft u onze diensten nodig?

Bedankt! We hebben je aanvraag ontvangen.

Transformeer je audio en

video naar tekst en ondertiteling