Skip to content
Blog
21 feb 2020   Laatste aanpassing 19 april 2021

Hoe werkt spraak-naar-tekst software?

Topics
Automatische transcriptie

“In de komende 10 jaar zullen we niet alleen een muis en toetsenbord gebruiken, maar zal spraakherkenningstechnologie dusdanig geperfectioneerd worden dat het een standaard onderdeel van elke interface is” (Bill Gates, 1997)

Hoe staat het er vandaag de dag voor met spraakherkenning?

Alhoewel Bill Gates er iets naast zat qua timing, is zijn voorspelling wel uitgekomen. Met de ontwikkeling van producten als Alexa, Cortana, Siri en Google Assistant gebruikt men al voor een groot deel spraakherkenning in plaats van uittypen om opdrachten te geven aan digitale apparatuur.

Recente ontwikkelingen op het gebied van spraakherkenning helpen niet alleen het leven makkelijker te maken en de workflow productiever, maar het biedt ook nieuwe kansen; kansen die vroeger misschien onmogelijk leken.

Spraak-naar-tekst software heeft verschillende toepassingen en het worden er jaarlijks steeds meer. Gezondheidszorg, betere klantenservice, qualitatief onderzoek, journalistiek – dit zijn maar enkele voorbeelden van industrieën waarbij spraak-naar-tekst software een groot verschil heeft gemaakt.

Waarom hebben we automatische transcriptie nodig?

Professionals in verschillende vakgebieden hebben transcripten van hoge kwaliteit nodig om al hun werktaken te kunnen volbrengen. De technologie die spraakherkenning ondersteunt ontwikkelt zich snel en maakt het steeds sneller, goedkoper en gemakkelijker om automatisch te transcriberen vergeleken met handmatige transcriptie.

Nog een reden – digitale toegankelijkheid

Waarom is automatische spraakherkenning opeens zo populair in Europa? Het antwoord is simpel – digitale toegankelijkheid. Zoals aangegeven in de EU Richtlijnen 2016/2102, moeten overheden maatregelen treffen om te zorgen dat iedereen gelijke toegang heeft tot informatie. Podcasts, video’s en audio opnames moeten worden aangeboden met captions of als transcript, zodat mensen met hoorproblemen deze informatie ook kunnen opnemen.

Hoe werkt automatische spraakherkenning?

P.s. – als het wat veel informatie is voor het moment, kun je ook gerust doorscrollen naar de samenvattende infografiek aan het einde van deze pagina.

De kern van automatische transcriptie is het automatische spraakherkenningssysteem. Kort gezegd, deze systemen bestaan uit akoestische en taalkundige componenten die op een of meerdere computers runnen.

Het akoestische component is verantwoordelijk voor het omzetten van de audio in jouw bestand naar een serie van akoestische eenheden – hele kleine geluidsvoorbeelden. Heb je wel eens een geluidsgolf gezien? Dat is analoog geluid, ofwel: de trillingen die ontstaan als je geluid maakt. Deze trillingen worden omgezet naar digitale signalen die de software kan analyseren. De akoestische eenheden worden dan gekoppeld aan bestaande “phonemen” – de geluiden die voorkomen in onze taal waarmee we daadwerkelijk worden en uitspraken vormen.

Daarna is het taalkundige component verantwoordelijk voor het omzetten van deze serie akoestische eenheden naar woorden, zinnen en alinea’s. Er zijn natuurlijk veel woorden die hetzelfde klinken maar niet hetzelfde betekenen, zoals: “zei” en “zij”.

Het taalkundige component analyseert alle voorgaande woorden en hoe deze in verhouding tot elkaar staan, om een schatting te maken van welk woord er moet volgen. Kenners noemen dit “Hidden Markov Models” – deze worden veel gebruikt in spraakherkenningssoftware. Dat is de manier waarop spraakherkenningsengines verschillende delen van spraak en woordeinde’s kunnen vaststellen. (Met gevarieerd succes)

Een voorbeeld: “Jij hebt geen cola” – zelfs al zou de “t” aan het einde van het woord “hebt” amper worden uitgesproken, dan kan het taalkundige component nog altijd vastellen dat na “jij” het woord “hebt” moet komen en niet “heb”.

Het is ook makkelijk zelf uit te proberen met een spraakherkenningsapplicatie, omdat ze allemaal door middel van taalkundige modellen werken. Bij Google Assistant bijvoorbeeld, kan je een woord met spraak “uittypen” en daarna een zin met dat woord geven, waardoor de transcriptie waarschijnlijk volledig accuraat zal zijn.

Voordat je een automatische transcriptie service kan gebruiken moeten beide componenten “getraind” worden om een bepaalde taal goed te kunnen verstaan. Zowel het akoestische component van de audio (de manier waarop dingen worden uitgesproken en zijn opgenomen) als het taalkundige component (wat er wordt gezegd) zijn cruciaal voor de uiteindelijke nauwkeurigheid van de transcriptie.

Bij Amberscript zijn wij voortdurend bezig met het verbeteren van de akoestische en taalkundige componenten om onze spraakherkenningsengine te perfectioneren.

Verrassing… Er is nog een model!

Het spreker-afhankelijk-model wordt door één bepaalde stem getraind. Een voorbeeld hiervan is de spraak-naar-tekst oplossing “Dragon”. Je kan ook Siri, Google Assistant en Cortana trainen om enkel jouw stem te herkennen. (In andere woorden, je traint de stem-assistent dan om spreker-afhankelijk te worden)

Spreker-afhankelijke modellen zijn vaak meer accuraat, maar het kost meer tijd om dit model te trainen. Daarnaast is dit model dus niet flexibel en is niet in verschillende settingen toepasbaar, bijvoorbeeld bij conferenties niet.

Je kunt het vast al raden – spreker-onafhankelijke modellen kunnen verschillende stemmen herkennen zonder enige training. Dit model gebruiken we momenteel bij Amberscript.

Zijn alle spraakherkenningstools hetzelfde?

Nee! Er zijn veel verschillende spraakherkenningstools die dezelfde doeleinden dienen. Sommige tools zijn ontworpen voor simpele, herhalende opdrachten en sommige zijn veel meer gevorderd. Laten we kijken naar de verschillende niveaus van spraakherkenning.

1) Heb je wel eens een bedrijf gebeld waarbij je aan de andere kant van de lijn enkel een robot-stem hoorde die vraagt of je je nummer wilt achterlaten? Dat is de meest simpele tool op het gebied van spraakherkenning, die werkt met behulp van patroon-matching. De woordenschat van deze tool is erg gelimiteerd, maar kan wel jouw telefoonnummer verstaan en opslaan.

2) Het volgende niveau van spraakherkenning benodigt analyse van statistieken en verschillende modellen zoals de “Hidden Markov Models”.

3) Het ultieme niveau van spraakherkenning is gebaseerd op kunstmatige neurale netwerken – oftewel, de engine kan dingen aanleren en zichzelf verbeteren. Google’s, Microsoft’s en onze eigen engine kunnen automatisch leren.

Spraak naar tekst: Verwachtingen vs. de realiteit

Alhoewel spraakherkenning technologie over het afgelopen decennium zich snel heeft ontwikkeld, zijn er nog een aantal uitdagingen op het gebied van spraak-naar-tekst software. Momenteel zijn er nog de volgende beperkingen als het op spraak-naar-tekst software aankomt:

– Opname-omstandigheden. De prestatie van zowel handmatige als automatische transcriptie is voornamelijk afhankelijk van de kwaliteit van de opname. Spraakherkenningssoftware is nog steeds niet bestendig tegen rumoer op de achtergrond of mensen die tegelijkertijd praten.

P.s. – check ook onze post over het optimaliseren van de kwaliteit van jouw opname en daarmee ook jouw automatische transcriptie.

– Het herkennen van bepaalde dialecten en accenten. Taal is een gecompliceerd concept, en iedereen spreekt het net even anders. Verschillende dialecten en accenten maken het lastig voor het model om alles aan te leren. Dit is wel te overkomen door middel van het verzamelen van veel verschillende data.

– Hononiemen verstaan. Hononiemen zijn woorden die hetzelfde klinken, maar anders gespeld worden en soms zelfs een andere betekenis hebben. Bijvoorbeeld de woorden “zei” en “zij”. De juiste keuze maken kan alleen wanneer je de context begrijpt. Alhoewel moderne spraak-naar-text engines ondersteund worden door AI, is het nog altijd lastig voor machines om unieke context te begrijpen.

Wat maakt Amberscript’s engine zo accuraat?

Onze engine is geschat tot wel 95% accuraat te zijn – iets wat nog niet bestond op de Nederlandse markt. We delen daarom graag waar deze unieke prestatie aan te danken is:

  • Slimme architectuur en een goed model. We zijn trots om met een tram van getalenteerde spraak wetenschappers te kunnen werken, die een model hebben ontworpen die zichzelf continue kan verbeteren.
  • Grote hoeveelheden trainingsmateriaal. Spraak-naar-tekst software is afhankelijk van “automatisch” leren. Dit betekent dat hoe meer data in het systeem wordt ingevoerd, hoe beter het systeem gaat werken.
  • Een balans in data. Om het algoritme te perfectioneren, worden verschillende soorten data gebruikt. Onze spraak wetenschappers hebben een hoeveelheid aan mensen van beide geslachten en met verschillende accenten en stemhoogtes gevonden, om de software voor iedereen toegankelijk te maken.
  • Scenario-verkenning. We hebben ons model in verschillende akoestische omstandigheden getest, om te zorgen dat het model onder al deze omstandigheden goed kan presteren.

Begrip van Natuurlijke Taal (Natural Language Understanding – NLU) – Het volgende mijlpunt in spraakherkenning

Laten we het hebben over de volgende grote stap voor de gehele industrie: Natural Language Understanding (NLU). Dit is een tak van kunstmatige intelligentie dat zich bezig houdt met de manier waarop machines de menselijke taal kunnen begrijpen en interpreteren. NLU zorgt ervoor dat spraakherkenningstechnologie niet enkel de taal kan transcriberen, maar dat de machine ook daadwerkelijk weet wat de informatie betekent. Kort gezegd, NLU algoritmes toevoegen aan een spraak-naar-tekst converter, is eigenlijk het toevoegen van een brein aan de software.

NLU moet de oplossing worden voor de grootste uitdaging op het gebied van spraakherkenning: begrijpen en verwerken van unieke context.

Wat kan je doen met NLU?

  • Automatische vertaling. Hier wordt al gebruik van gemaakt in het programma Skype. Je spreekt in een bepaalde taal en je stem wordt automatisch omgezet naar tekst in een andere taal. Het gaat dus nog een stap verder dan Google Vertalen. Deze functie opzich brengt al veel mogelijkheden met zich mee – zoals bijvoorbeeld een gesprek voeren met iemand die niet dezelfde taal spreekt.
  • Samenvatten van documenten. We wonen in een wereld vol met data en informatie, misschien wel te veel informatie. Stel je nou voor dat je automatisch en direct een samenvatting kan hebben van een artikel, werkstuk of lange email.
  • Categorisering van content. Met NLU kan content worden ingedeeld per thema of onderwerp. Deze functie wordt al gebruikt in verschillende zoekmachines, zoals bij Google en Youtube.
  • Emotie-analyse. Deze techniek is bedoeld om menselijke waarnemingen en meningen vast te stellen door middel van systematische analyses van blogs, tweets of recensies. Dit wordt al veel gedaan, vooral door bedrijven die actief zijn op social media. En ja, we komen steeds dichterbij! We weten nog niet of we in een wereld vol vriendelijke robots terecht komen of in een wereld vergelijkbaar met The Matrix, maar machines kunnen in ieder geval al wel de basisemoties van mensen begrijpen.
  • Plagiaat controle. Simpele plagiaat controles checken enkel of content gekopieerd is of niet. Gevorderde software zoals Tumitin kan al vaststellen of dezelfde content is gebruikt maar is geparafraseerd, waardoor plagiaat controles steeds meer accuraat worden.

Wat zijn de toepassingen van NLU vandaag de dag?

Er zijn vele disciplines waarbij NLU (als onderdeel van Natural Language Processing, NLP) al een grote rol speelt. Wat voorbeelden:

  1. Social Media analyse
  2. Psychologisch onderzoek
  3. Spam mail herkennen
  4. Spraak-analyse in callcenters
  5. Zelfs… Criminaliteit bestrijden

Wat volgt er nog?

We zijn momenteel NLU algoritmes in onze systemen aan het integreren, zodat onze spraakherkenningssoftware nog slimmer en nog meer toepasbaar wordt in verschiilende situaties.

We hopen dat je nu wat meer op de hoogte bent van wat er allemaal speelt op het geweldige gebied van spraakherkenning. Voor nog meer leuke en interessante informatie, lees ook onze andere blogposts!

Met onze diensten kun je audio en video ondertitelen en omzetten in tekst.

* Upload audio of video bestand
* Automatische of handmatige spraak naar tekst
* Tekst of ondertitels bewerken en exporteren

Onze app is nu beschikbaar!

Onze app is nu beschikbaar!

Meer info