Skip to content
Blogg
1 sep 2020   Senast uppdaterad 16 april 2021

Tal till Text- Hur fungerar taligenkänning?

person using speech-to-text on laptop computer
Topics
Automatisk transkription

Med introduktion av tal till text mjukvaror som Alexa, Cortana, Siri och Google Assistent, så har taligenkänning ändrat på hur vi interagerar med våra digitala prylar.

Hur ser tal till text ut idag?

Dagens tal till text teknologi har inte bara gjort vår vardag mer bekväm, utan den har också öppnat upp en massa möjligheter som ansågs vara omöjliga förr i tiden.

Mjukvaror till taligenkänning har en rad olika applikationer och listan kommer att fortsätta att växa under de kommande åren. Sjukvården, förbättrad kundservice, kvalitativ forskning, och journalistik, är bara några industrier där tal till text blivit revolutionerande.

Varför behöver vi automatisk transkribering?

Yrkesmän inom olika områden behöver transkriptioner i hög kvalité för att kunna prestera i sin verksamhet. Teknologin bakom taligenkänning utvecklas i en snabb fart vilket gör den snabbare, billigare och bekvämare än manuell transkribering.

Även om teknologin i nuläget inte kan jämföras med mänsklig prestation, så har mjukvaran en precision upp till 95%. Transkriberingstjänster brukade kräva mycket tid och arbete, men idag behöver man endast att göra små justeringar.

En till anledning – Digital tillgänglighet

Varför är Automatisk Taligenkänning så stort här i Europa just nu? Enkla svaret – Digital tillgänglighet. Som beskrivet i EU:s Direktiv 2016/2012, måste regeringar se till att alla har lika tillgång till information. Podkastar, video och inspelat ljud måste ha undertext samt tillgång till transkribering för folk med nedsatt hörsel

Hur fungerar automatisk taligenkänning?

P.s – om detta känns för tungt att läsa, skippa gärna och gå till sammanfattande informationsgrafiken längst ner på sidan.

Kärnan i tjänster för automatisk transkribering ligger i automatisk taligenkänning. Kortfattat, så utgörs dessa system av akustiska och lingvistiska komponenter i en eller flera datorer.

Den akustiska komponenten har ansvar att konvertera ljuden i din fil till sekvenser av akustiska enheter – jättelitet urval av ljud. Har du nånsin sett små vågor av ljud? Det kallar vi analogt ljud eller vibrationer som skapas när man pratar – de konverteras sen till digitala signaler, som mjukvaran sedan kan analysera. Efter detta, matchas de nämnda akustiska enheterna med existerande ”fonemer” – det är de ljud som vi använder i vårt språk för att skapa meningsfulla uttryck.

Därefter, har den lingvistiska komponenten ansvar för att konvertera dessa sekvenser av akustiska enheter till ord. Det finns flertal ord som låter likadant men har helt annorlunda betydelser, som t.ex sej och säg.

Lingvistiska komponenten analyserar föregående ord och dess relation för att estimera vilket ord ska komma näst. Grekerna kallar dessa ”Dold Markovmodell” – vilket används ofta i all tal-till-text mjukvaror. Det är så de är möjligt för alla taligenkännings-motorer att avgöra delar av talet och ordändelser.

Exempel: Det ljudet. Även om ”l” i ordet ”ljudet” inte uttalas, så kan den lingvistiska komponenten bestämma att ordet skall skrivas med ”l”, för att föregående ordet var ”det”.

Du kan enkelt testa detta själv i verkligheten, som alla andra tal till text applikationer har Google Translate en språkmodell bakom sig. Du kan säga ett random ord, som har olika betydelser och sen tillföra kontexten (genom att sätta ett ord i en mening) – troligtvis kommer du se en mer noggrann transkription och översättning.

Innan det är möjligt för dig att använda automatisk transkriptionstjänst, måste dessa komponenter bli lämpligt tränade för att kunna förstå ett specifikt språk. Både den akustiska delen av ditt innehåll, som hur det talas och spelas in och den lingvistiska delen som vad som sägs, är viktiga för att noggrannheten i transkriptionen.

Här på Amberscript, förbättrar vi konstant våra akustiska och lingvistiska komponenter för att kunna göra vår taligenkännings-motor perfekt.

Överraskning… Det finns en till modell!

Det finns något som kallas ”talmodell”. Mjukvaror till taligenkänning kan antingen var tal-beroende eller tal-oberoende.

Den tal-beroende modellen är tränad för en särskild röst, som tal till text lösningen av Dragon. Du kan också träna Siri, Google och Cortana så att den enbart känner igen din röst (med andra ord, du gör din röstassistent tal-beroende).

Det resulterar oftast i högre precision för ditt särskilda fall, men det krävs tid att träna upp modellen så att den förstår din röst. Dessutom, den tal-beroende modellen är inte flexibel och kan inte pålitligt användas i många miljöer, som t.ex en konferens.

Du har säkert gissat det – den tal-oberoende modellen kan känna igen många olika röster, utan träning. Det är de vi just nu använder i vår mjukvara här på Amberscript.

Är alla verktyg till taligenkänning det samma?

Nej! Det finns en massa tal till text verktyg som har olika ändamål. Några är designade för enkel upprepning, medan andra är extremt avancerade. Låt oss titta på de olika nivåerna av taligenkänning.

1) Har du någonsin ringt ett företag, och sen så säger en bot till dig att lämna ditt nummer? Det är den enklaste varianten av taligenkänningsverktyg, som fungerar på mönster-matchning. Den har begränsat ordförråd, men gör sitt jobb (i detta fall, förstå nummer)

2) Nästa nivå av taligenkänning är modellen av statistisk analys (som den dolda Markovmodellen) – som vi redan gått igenom i tidigare sektion.

3) Den ultimata nivån av taligenkänning är baserat på artificiellt neuronnät – grundläggande är att den ger motorn en möjlighet att lära och själv förbättra sig. Googles, Microsofts och även våran motor är driven av maskinlärning.

Mjukvara för tal till text. Förväntningar vs. Verkligheten

Även om teknologin bakom taligenkänning har utvecklats väldigt fort senaste årtiondet, så har mjukvaran för tal till text en rad utmaningar. Nuvarande begränsningar på tal till text är:

-Inspelningsvillkor. Prestationen av både mänsklig och automatisk transkription är beroende av inspelningsvillkoren. Mjukvaran till taligenkänning kämpar fortfarande med att tolka tal i bullriga miljön eller när folk pratar samtidigt.

P.s – kolla gärna vårt inlägg om Hur man förbättrar ljudkvalitén och optimerar transkriptionen för tal till text för att få praktiska tips till att öka kvalitén på din automatiska transkription.

-Känna igen vissa brytningar och dialekter. Språk har en komplex struktur och alla pratar på olika sätt. En mängd av dialekter och brytningar skapar en adderad komplexitet för modellen. Men, denna komplexitet är hanterbart genom att samla olika data.

-Förstå homonymer. Homonymer are ord som låter samma, but skiljer sig åt när det gäller betydelse och stavning, till exempel, hjul och jul. Det kräv förståelse av kontexten för att kunna välja rätt alternativ. Även om dagens tal till text motorer är styrda av AI, så brukar tolkningen av unik kontext vara svåra för maskiner.

Vad gör Amberscripts motor så noggrann?

Vår motor är beräknad att nå up till 95% träffsäkerhet – denna kvalitetsnivån var förr okänt för den holländska marknaden. Vi delar gärna med glädje vart ifrån denna oöverträffade prestandan kommer ifrån:

  • Smart arkitektur och modell. Vi är stolt över vårt jobb med ett team som består av talangfulla talforskare, som kan utveckla sofistikerade språkmodeller och är öppna för kontinuerlig förbättring.
  • Storskalig mängd av träningsmaterial. Mjukvaror för tal till text förlitar sig på maskinlärning. Med andra ord, ju mer data du ger systemet – desto bättre presterar den. Vi har samlat in data i terabytes på vägen för att kunna nå en sån hög nivå av kvalité
  • Balanserad data. För att kunna fullborda våra algoritmer, använder vid olika sorters data. Våra specialister erhåller tillräckligt storlek med prover för båda kön, men även olika brytningar och tonen på röster.
  • Utforska olika scenarion. Vi har testat våran model i olika akustiska förhållanden för att säkerställa stabil prestanda i olika inspelningstillfällen.

Naturlig språkförståelse – Nästa stora sak inom tal till text

Låt oss diskutera nästa stora steg för hela industrin, det är – Naturlig språkförståelse (eller NLU). Det är en gren av Artificiell Intelligens, som utforskar om hur maskiner kan förstå och tolk mänskligt språk. Naturlig språkförståelse gör det möjligt för teknologin bakom taligenkänning att inte bara transkribera mänskligt språk, utan även förstå meningen av det. Med andra ord, att lägga till NLU algoritmer är som att addera en hjärna till en tal till text konverterar.

NLU kommer möta den största utmaningen inom taligenkänning – att förstå och jobba med kontexter som är unika.

Vad kan du göra med Naturlig språkförståelse?

-Maskinöversättning. Det är något som redan används på Skype idag. You talar på ett språk, och din röst transkriberas automatiskt till en text på ett annat språk. Det är nästan som nästa nivån av Google Translate. Detta har en stor potential – tänk dig hur mycket enklare det blir att kunna tala med människors som inte talar ditt språk.

-Sammanfattning av dokument. Vi lever i en värld full av data. Kanske finns det för mycket information därute, men tänk dig att ha en sammanfattning av artiklar, uppsatar eller emails i ett ögonblick.

-Kategorisera innehåll. Samman som ovanstående, så kan innehåll blir kategoriserat i olika ämnen och teman. Denna funktion är redan implementerad i sökmotorer, som Google och YouTube.

-Attitydanalys. Denna teknik är till för att identifiera mänsklig uppfattning och åsikt, genom att utföra attitydanalys av bloggar, recensioner och även tweets. I praxis är detta redan implementerat av många företag, speciellt de som är aktiva på sociala medier.

Ja, vi är påväg dit! Vi vet inte om vi kommer att hamna i en värld full av vänliga robotar eller som de ifrån Matrix. Men, maskiner kan redan förstå enkla mänskliga känslor.

-Upptäcka plagiering. Enkel plagiat-verktyg kollar bara om en del av innehållet är direktkopierat. Avancerade mjukvaror som Turnitin kan redan upptäcka om samma innehåll är omskrivet, vilket gör att upptäcka plagiat mycket mer exakt.

Vart applicerar man Naturlig språkförståelse (NLU) idag?

Det finns redan olika ämnesområden där Naturlig språkförståelse innefattar en stor roll. Här är några exempel:

  1. Analys av Sociala Medier
  2. Forskning inom psykologi
  3. Upptäcka skräppost
  4. Använda talanalys i teletjänstcentral
  5. Till och med…lösa brott

Vad härnäst?

Just nu håller vi på att integrera NLU algoritmer i våra system, så att vår mjukvara till taligenkänning blir ännu smartare och kan appliceras i flera applikationer.

Vi hoppas på att du är nu mer bekant med den fascinerade ämnet taligenkänning! Kolla gärna vår blogg för mer intressanta inlägg som denna!

Med våra tjänster kan du skapa text och undertexter från ljud eller video.

* Ladda upp en ljud- eller videofil
* Automatisk eller manuell tal till text
* Redigera och exportera text eller undertexter