Skip to content
Blog
21 Feb 2020   Zuletzt aktualisiert 10 August 2021

Wie funktioniert eine Spracherkennungs-Software?

Topics
Automatische Transkription

Mit der Einführung und Etablierung von Smart Home Devices wie Alexa, Cortana, Siri und Google Assistant, hat die Spracherkennung definitiv an neuem Wert gewonnen. Statt Befehle einzutippen, können wir unsere smarten Wohnzimmer-Erfindungen ganz bequem per Sprache steuern.

Was ist der aktuelle Stand von Spracherkennung?

So viel steht fest: Die neuesten technologischen Entwicklungen im Feld der Spracherkennung haben nicht nur unser Leben erleichtert, sondern auch unsere Arbeitsabläufe grundlegend verändert und vereinfacht. Was damals als undenkbar gehalten wurde, ist heute Normalität.

Speech-to-Text Freewares bietet eine Vielzahl an Anwendungsmöglichkeiten und die Liste wird von Jahr zu Jahr immer länger. Im Gesundheitssektor, im Kundenservice, in der qualitative Forschung oder im Journalismus – in all diesen Bereichen und Industrien ist die Umwandlung von Sprache zu Text bereits ein Gamechanger.

Warum brauchen wir automatische Transkription?

Viele Anwendungsbereiche verlangen qualitativ hochwertige Transkripte. Die Technologie hinter Spracherkennung entwickelt sich rasend schnell und macht es somit schneller, günstiger und bequemer als manuelle Transkription.

Obwohl die Technologie noch nicht and die menschliche Qualität rankommt, kann teilweise eine Genauigkeit von bis zu 95% erreicht werden. Transkription war sonst immer unglaublich zeitaufwendig und arbeitsintensiv, während sich heutzutage die manuelle Arbeit in Grenzen hält und sich auf einige wenige Anpassungen beschränkt.

Noch ein Grund mehr: Digitale Barrierefreiheit

Warum erfährt automatische Spracherkennung zurzeit einen derartigen Boom in Europa? Die Antwort ist recht simpel – digitale Barrierefreiheit. Wie die neue EU Richtlinie 2016/2102 besagt, müssen alle öffentlichen Stellen dafür sorgen, dass alle Menschen Zugang zu den bereitgestellten Informationen hat. Für Podcasts, Videos und Tonaufnahmen müssen entweder Untertitel oder Transkripte zur Verfügung gestellt werden, um die Inhalte auch für taube und hörgeschädigte Menschen zugänglich zu machen.

Wie funktioniert die Spracherkennung?
Wie funktioniert die Spracherkennung?

Wie funktioniert ein automatisches Spracherkennungsprogramm?

Der Kern der automatischen Transkription ist die automatische Spracherkennungssoftware. Ganz grob gesagt, bestehen solche Systeme aus akustischen und linguistischen Komponenten, die entweder auf einem oder mehreren Computern laufen.

Die akustische Komponente ist dafür verantwortlich, die Audiospur einer Datei in eine Sequenz von akustischen Einheiten umzuwandeln – ganz viele kleine Tonspuren. Hast du schonmal eine Klangwelle „gesehen“? Diese Wellen entstehen durch analogen Ton oder Vibrationen, die beim Sprechen erzeugt werden – welche dann in digitale Signale umgewandelt werden, sodass sie von der Software analysiert werden können. Danach werden die akustischen Einheiten zu bereits existierenden „Phonemen“ zusammengefügt – das sind die Töne, die wir dazu benutzen, um uns mit unserer Sprache auszudrücken.

Danach ist die linguistische Komponente dafür verantwortlich, diese Sequenzen aus akustischen Einheiten in Worte und Sätze zu „verwandeln“. Es gibt viele Worte, die ähnlich klingen, aber etwas ganz anderes bedeuten, wie zum Beispiel Schiff und schief.

Die linguistische Komponente analysiert alle vorliegenden Worte und deren Zusammenhang, um die Wahrscheinlichkeit einzuschätzen, welches Wort als nächstes kommen könnte. Bei Expert:innen ist dies unter „Hidden Markov Models‘‘ bekannt, jene weit verbreitet sind und in jeder Spracherkennungssoftware verwendet werden. So kann die Spracherkennung Teile von Sprach- und Wortendungen bestimmen (mit sich unterscheidender Erfolgsquote).

Ein Beispiel:

Man kann das auch ganz einfach im echten Leben ausprobieren, dann hinter jeder Sprachanwendung, wie zum Beispiel Google Translate, verstecken sich Sprachmodelle. Man kann einfach irgendein Wort, das mehrere Bedeutungen hat, hineinsprechen und dann einen Zusammenhang angeben (indem man einen Satz bildet) – so erhält man meist eine deutlich genauere Transkription und Übersetzung.

Bis eine automatische Spracherkennung einsatzfähig ist, müssen je nach Anwendungsbereich verschiedene Komponenten trainiert werden. Sowohl der akustische Teil, also wie gesprochen und aufgenommen wird, als auch der linguistische Teil, also was gesagt wird, sind entscheidend für die Genauigkeit und die Qualität des Transkripts.

Hier bei Amberscript entwickeln und verbessern wir unsere akustischen und linguistischen Komponenten immer weiter, um unsere Spracherkennungssoftware so weit wie möglich zu perfektionieren.

Überraschung: Es gibt noch ein weiteres Modell!

Es gibt auch noch so etwas wie das „Speaker Model“. Spracherkennungssoftwares können entweder sprecherabhängig oder -unabhängig sein.

Sprecherabhängige Modelle sind auf eine bestimmte Stimme trainiert, wie zum Beispiel die Sprache-zu-Text-Lösung von Dragon. Man kann auch Siri, Google oder Cortana darauf trainieren, nur die eigene Stimme zu erkennen (mit anderen Worten: einen Sprachassistenten sprecherabhängig machen).

Daraus ergibt sich meist eine höhere Genauigkeit für einzelne Anwendungsbereiche, braucht allerdings Zeit bis das Modell die eine spezifische Sprache versteht. Außerdem ist das sprecherabhängige Modell nicht sonderlich felxibel und kann nicht verlässlich in unterschiedlichen Umfeldern oder mit verschiedenen Einstellungen genutzt werden.

Sie haben es wahrscheinlich schon geahnt – sprecherunabhängige Modelle können ohne Training viele verschiedene Stimmen erkennen. Genau diese Art von Modell kommt in der Amberscript Software zum Einsatz.

Sind alle Spracherkennungstools gleich?

Nein! Viele verschiedene Spracherkennungstools dienen ganz unterschiedlichen Zwecken. Manche sind für einfache, repetitive Zwecke entwickelt, andere sind sehr fortschrittlich. Lass uns einen Blick auf die unterschiedlichen Level der Spracherkennung werfen.

1) Hast du jemals eine Servicehotline angerufen und wurdest von einer Computerstimme dazu aufgefordert, deine Handynummer anzugeben? Dahinter steckt das einfachste Spracherkennungstool, das mit Musterabgleichen (pattern-matching) arbeitet aber ein limitiertes Vokabular hat – nichtsdestotrotz erfüllt es seinen Zweck.

2) Das nächste Level der Spracherkennung involviert statistische Analysen und Modelle (wie zum Beispiel Hidden Markov Models) – worauf wir bereits weiter oben eingegangen sind.

3) Das Erkennen von Dialekten und Akzenten. Sprache ist ein komplexes Gebilde, das jeden Menschen ein wenig anders sprechen lässt. Eine Vielzahl von alemannischen Dialekten wie Schweizerdeutsch, österreichisches Deutsch usw. macht das Modell zusätzlich komplex. Das Sammeln verschiedenartiger Daten kann diese Komplexität jedoch erheblich reduzieren.

4) Das ultimative Level der Spracherkennung basiert auf künstlichen neuronalen Netzwerken, kurz KNN, was es ermöglicht dass eine solche Spracherkennung dazu in der Lage ist, stetig zu lernen und sich selber zu optimieren. Googles, Microsofts und auch unsere Spracherkennung basiert auf maschinellem Lernen.

Homonyme (Teekesselchen) sind Wörter, die sich genau gleich anhören, aber eine ganz unterschiedliche Bedeutung haben und anders geschrieben werden. Um hier das richtige Wort zu treffen, ist es wichtig, den Zusammenhang zu kennen. Trotz modernster Spracherkennungssoftwares die auf künstlicher Intelligenz basieren, ist es dennoch schwierig jeden einzelnen Kontext richtig zu interpretieren.

Wie kommt es, dass Amberscripts Software so genau ist?

Unsere Software erreicht schätzungsweise bis zu 95% Genauigkeit – so eine Qualität gab es bisher noch nicht auf dem niederländischen Markt. Hier erfährst du, woher diese unübertroffene Leistung kommt:

  • Softwareentwicklung. Wir sind sehr stolz auf unser Team bestehend aus talentierten und hochqualifizierten Sprachwissenschaftlern, die ein ausgefeiltes Sprachmodell entwickelt haben, das sich immer weiter ausbauen lässt.
  • Große Mengen an Trainingsdaten. Sprache-zu-Text-Software basiert auf maschinellem Lernen. Mit anderen Worten – je mehr Daten du dem System zuführst, desto besser wird es! Wir haben Terabytes an Daten gesammelt und zugeführt, um ein solches Qualitätsniveau zu erreichen.
  • Ausgewogener Datensatz. Um unseren Algorithmus zu perfektionieren, haben wir verschiedene Arten an Daten verwendet. Unsere Spezialisten haben dafür gesorgt, möglichst heterogene Trainingsdaten zu sammeln und zu verwenden: männliche und weibliche Stimmen, verschiedene Stimmlagen, sowie verschiedene Akzente und Dialekte etc.
  • Verschiedene Szenarien. Wir haben unser Modell in den verschiedensten akustischen Umgebungen getestet, um eine verlässliche und stabile Leistung unter unterschiedlichen Aufnahmebedingungen garantieren zu können.
Was macht Amberscript so präzise?

Natürliches Sprachverständnis – Der nächste Meilenstein der Spracherkennung

Lasst uns über den nächsten großen Schritt für die gesamte Industrie sprechen: Natürliches Sprachverständnis (NLU). NLU ist ein Bereich der künstlichen Intelligenz, der erforscht, wie Maschinen menschliche Sprache verstehen und interpretieren kann. Natürliches Sprachverständnis ermöglicht es der Spracherkennung nicht nur, menschliche Sprache zu transkribieren, sondern auch die tatsächliche Bedeutung der Worte zu verstehen. Anders gesagt: Das Hinzufügen von NLU-Algorhythmen zu einer Sprache-zu-Text-Software kommt dem Hinzufügen eines Gehirns gleich.

Die natürliche Spracherkennung steht der größten Herausforderungen der Spracherkennung gegenüber: das Verstehen und Arbeiten mit einzigartigen und unbekannten Kontexten.

Was kann man mit natürlichem Sprachverständnis machen?

  • Maschinelle Übersetzung. Diese wird bereits bei Skype genutzt – man kann in einer Sprache sprechen und diese gesprochene Sprache wird dann automatisch in Text auf einer anderen Sprache transkribiert. Das ist wie die nächste Generation von Google Translate. Und alleine diese Funktion hat enormes Potential – man muss sich nur einmal vorstellen, wie viel einfacher es wird, mit Menschen zu kommunizieren, die eine andere Sprache sprechen.
  • Zusammenfassungen. Wir leben in einer Welt voller Daten – es grenzt sogar schon fast an einer Reizüberflutung. Man stellt sich vor, man hat immer direkt die Zusammenfassung eines Artikels, eines Essays oder eine Email zur Hand.
  • Kategorisierung von Inhalten. Ähnlich wie beim vorherigen Punkt, können Inhalte in verschiedene Themenbereiche und Kategorien eingeordnet werden. Suchmaschinen wie Google oder Youtube nutzen diese Funktion bereits.
  • Analyse von Emotionen. Diese Technik zielt auf die Wahrnehmung und Sichtweise von Menschen ab – durch die systematische Analyse von Blogeinträgen, Bewertungen und Tweets. Diese Funktion wird schon von einigen Unternehmen genutzt, vor allem denjenigen, die auf Social Media aktiv sind.

Ja, wir bewegen uns auf eine Science-Fiction-Welt zu! Abgesehen davon, dass wir uns mehr und mehr in ein roboterähnliches Wesen verwandeln, verfügen Maschinen definitiv über jene Raffinesse, die es ihnen ermöglicht, grundlegende menschliche Emotionen zu verstehen.

  • Plagiatsprüfung. Einfache Plagiatstools können nur prüfen, ob Inhalte abgeschrieben sind oder nicht. Weiter fortgeschrittene Software, wie zum Beispiel Turnitin, kann sogar erkennen, ob der gleiche Inhalt einfach nur umformuliert wurde, was die Plagiatsprüfung um einiges genauer macht.

Status quo: Wo wird NLU heutzutage bereits verwendet?

Es gibt viele Bereiche, in denen NLU (als Teildisziplin der natürlichen Sprachverarbeitung) bereits eine große Rolle spielt. Im Folgenden findest du einige Beispiele:

NLU
  1. Social-Media Analyse
  2. Psychologische Forschung
  3. Spam-Mail-Erkennung
  4. Sprachanalyse in Callcentern
  5. Und sogar…beim Lösen von Verbrechen

Was kommt als nächstes?

Wir arbeiten zurzeit an der Integration von NLU in unser System, um unsere Spracherkennungssoftware noch schlauer zu machen und die Anwendungsbereiche noch mehr auszuweiten.

Wir hoffen, wir konnten die helfen, die faszinierende Welt der Spracherkennung etwas besser kennenzulernen!

Sprache zu Text Software: Expectations vs. Reality

Obwohl sich die Technologie hinter Spracherkennung im vergangenen Jahrzehnt rasant entwickelt hat, steht diese immer noch einer Vielzahl von Herausforderungen gegenüber. Zu den derzeitigen Herausforderungen von Sprache-zu-Text Software zählen:

  • Voraussetzungsbedingungen: Sowohl die automatische, als auch die manuelle Transkription hängt maßgeblich von der Aufnahmequalität ab. Spracherkennungssoftware hat immer noch damit zu kämpfen, Sprache mit lauten Hintergrundgeräuschen zu erkennen oder wenn mehrere Menschen durcheinandersprechen.

P.S.: Einer unserer anderen Blogposts gibt hierzu ein paar praktische Tipps, wie Sie die Qualität Ihrer Aufnahmen für die automatischen Transkription ganz leicht verbessern können.

Unsere Software ermöglicht das Erstellen von Text und Untertiteln aus Video oder Audio.

* Hochladen einer Audio- oder Videodatei
* Automatische oder manuelle Sprachausgabe in Text
* Bearbeiten und Exportieren von Text oder Untertiteln

Unsere App ist jetzt verfügbar!

Unsere App ist jetzt verfügbar!

Mehr Infos