Skip to content
Blog
21 Feb 2020   Zuletzt aktualisiert 3 Juni 2021

Wie funktioniert Sprache-zu-Text Software?

Topics
Automatische Transkription

„In 10 Jahren werden wir nicht mehr nur die Maus und Tastatur zum Imteragieren verwenden, sondern wir werden Spracherkennung so weit entwickelt haben, dass der erzeugte Output gut genug ist, dass Spracherkennung zur Standardeinrichtung eines jeden Interfaces gehört.“ (Bill Gates, 1997)

Was ist der aktuelle Stand von Spracherkennung?

Auch wenn Bill Gates bei der Zeitangabe nicht ganz richtig lag, hat sich seine Vorhersage doch bewahrheitet. Mit Alexa, Cortana, Siri und dem Google Assistenten hat die Spracherkennung damit begonnen, das manuelle (Ab)tippen abzulösen.

Die neuesten technologischen Fortschritte im Feld der Spracherkennung haben unser Leben nicht nur bequemer und unsere Workflows produktiver und effizienter gemacht, sondern haben auch noch neue Möglichkeiten aufgetan, die wie damals für undenkbar gehalten hätten.

Sprache-zu-Text Software bietet eine Vielzahl an Anwendungsmöglichkeiten und die Liste wird von Jahr zu Jahr immer länger. Im Gesundheitssektor, im Kundenservice, in der qualitative Forschung oder im Journalismus – in all diesen Bereichen und Industrien ist die Umwandlung von Sprache zu Text bereits ein riesen Gamechanger.

Warum brauchen wir automatische Transkription?

Viele Anwendungsbereiche verlangen qualitativ hochwertige Transkripte. Die Technologie hinter Spracherkennung entwickelt sich rasend schnell und macht es somit schneller, günstiger und bequemer als manuelle Transkription.

Obwohl die Technologie noch nicht and die menschliche Qualität rankommt, kann teilweise eine Genauigkeit von bis zu 95% erreicht werden. Transkription war sonst immer unglaublich zeitaufwendig und arbeitsintensiv, während sich heutzutage die manuelle Arbeit in Grenzen hält und sich auf einige wenige Anpassungen beschränkt.

Digitale Barrierefreiheit: Noch ein Grund mehr

Warum erfährt automatische Spracherkennung zurzeit einen derartigen Boom in Europa? Die Antwort ist recht simpel – digitale Barrierefreiheit. Wie die neue EU Richtlinie 2016/2102 besagt, müssen alle öffentlichen Stellen dafür sorgen, dass alle Menschen Zugang zu den bereitgestellten Informationen hat. Für Podcasts, Videos und Tonaufnahmen müssen entweder Untertitel oder Transkripte zur Verfügung gestellt werden, um die Inhalte auch für taube und hörgeschädigte Menschen zugänglich zu machen.

Wie funktioniert automatische Spracherkennung?

P.S. – falls die das gerade zu viel zum Lesen ist, kannst du dir auch gerne einfach nur die Infografik am Ende der Seite anschauen, die alles noch einmal zusammenfasst.

Der Kern der automatischen Transkription ist die automatische Spracherkennungssoftware. Ganz grob gesagt, bestehen solche Systeme aus akustischen und linguistischen Komponenten, die entweder auf einem oder mehreren Computern laufen.

Die akustische Komponente ist dafür verantwortlich, die Audiospur einer Datei in eine Sequenz von akustischen Einheiten umzuwandeln – ganz viele kleine Tonspuren. Hast du schonmal eine Klangwelle „gesehen“? Diese Wellen entstehen durch analogen Ton oder Vibrationen, die beim Sprechen erzeugt werden – welche dann in digitale Signale umgewandelt werden, sodass sie von der Software analysiert werden können. Danach werden die akustischen Einheiten zu bereits existierenden „Phonemen“ zusammengefügt – das sind die Töne, die wir dazu benutzen, um uns mit unserer Sprache auszudrücken.

Danach ist die linguistische Komponente dafür verantwortlich, diese Sequenzen aus akustischen Einheiten in Worte und Sätze zu „verwandeln“. Es gibt viele Worte, die ähnlich klingen, aber etwas ganz anderes bedeuten, wie zum Beispiel Schiff und schief.

Die linguistische Komponente analysiert alle vorliegenden Worte und deren Zusammenhang, um die Wahrscheinlichkeit einzuschätzen, welches Wort als nächstes kommen könnte. Kenner nennen diese „Hidden Markov Models“, welche weit verbreitet sind und in jeder Spracherkennungssoftware verwendet werden. So können Spracherkennungsengines Teile von Sprach- und Wortendungen bestimmen (mit gestreutem Erfolg).

Ein Beispiel:

Man kann das auch ganz einfach im echten Leben ausprobieren, dann hinter jeder Sprachanwendung, wie zum Beispiel Google Translate, verstecken sich Sprachmodelle. Man kann einfach irgendein Wort, das mehrere Bedeutungen hat, hineinsprechen und dann einen Zusammenhang angeben (indem man einen Satz bildet) – so erhält man meist eine deutlich genauere Transkription und Übersetzung.

Bevor man eine automatische Spracherkennung nutzen kann, müssen die verschiedenen Komponenten entsprechend des Anwendungsfeldes trainiert werden. Sowohl der akustische Teil, also wie gesprochen und aufgenommen wird, als auch der linguistische Teil, also was gesagt wird, sind entscheidend für die Genauigkeit und die Qualität des Transkripts.

Hier bei Amberscript entwickeln und verbessern wir unsere akustischen und linguistischen Komponenten immer weiter, um unsere Spracherkennungssoftware so weit wie möglich zu perfektionieren.

Überraschung: Es gibt noch ein weiteres Modell!

Es gibt auch noch so etwas wie das „Sprecher Modell“. Spracherkennungssoftware kann entweder sprecherabhängig oder -unabhängig sein.

Sprecherabhängige Modelle sind auf eine bestimmte Stimme trainiert, wie zum Beispiel die Sprache-zu-Text-Lösung von Dragon. Man kann auch Siri, Google oder Cortana darauf trainieren, nur die eigene Stimme zu erkennen (mit anderen Worten: einen Sprachassistenten sprecherabhängig machen).

Daraus ergibt sich meist eine höhere Genauigkeit für einzelne Anwendungsbereiche, braucht allerdings Zeit bis das Modell die eine spezifische Sprache versteht. Außerdem ist das sprecherabhängige Modell nicht sonderlich felxibel und kann nicht verlässlich in unterschiedlichen Umfeldern oder mit verschiedenen Einstellungen genutzt werden.

Du hast es wahrscheinlich schon geahnt – sprecherunanhängige Modelle können ohne Training viele verschiedene Stimmen erkennen. Genau diese Art nutzen wir in unserer Amberscript Software.

Sind alle Spracherkennungstools gleich?

Nein! Viele verschiedene Spracherkennungstolls dienen ganz unterschiedlichen Zwecken. Manche sind für einfache, repetitive Zwecke entwickelt, andere sind sehr fortschrittlich. Lass uns einen Blick auf die unterschiedlichen Level der Spracherkennung werfen.

1) Hast du jemals eine Servicehotline angerufen und wurdest von einer Computerstimme dazu aufgefordert, deine Handynummer zu sagen? Dahinter steckt das einfachste Spracherkennungstool, das mit Musterabgleichen arbeitet und ein limitiertes Vokabular hat – aber es erfüllt seinen Zweck.

2) Das nächste Level der Spracherkennung involviert statistische Analysen und Modelle (wie zum Beispiel Hidden Markov Models) – worauf wir bereits vorher eingegangen sind.

3) Das ultimative Level der Spracherkennung basiert auf künstlichen neuronalen Netzwerken – was bedeutet, dass eine solche Spracherkennung dazu in der Lage ist, zu lernen und sich selber zu verbessern. Googles, Microsofts und auch unsere Spracherkennung basiert auf maschinellem Lernen.

Sprache zu Text Software: Erwartungen vs. Realität

Obwohl sich die Technologie hinter Spracherkennung im vergangenen Jahrzehnt rasant entwickelt hat, steht diese immer noch einer Vielzahl von Herausforderungen gegenüber. Zu den derzeitigen Herausforderungen von Sprache-zu-Text Software zählen:

– Aufnahmebedingungen. Sowohl die automatische, als auch die manuelle Transkription hängt maßgeblich von der Aufnahmequalität ab. Spracherkennungssoftware hat immer noch damit zu kämpfen, Sprache mit lauten Hintergrundgeräuschen zu erkennen oder wenn mehrere Menschen durcheinandersprechen.

P.S.: Lies unseren Blogpost mit praktischen Tipps, wie du die Qualität deiner Aufnahmen und somit deiner automatischen Transkripte ganz leicht verbessern kannst.

-Das Erkennen von speziellen Dialekten und Akzenten. Sprache besitzt eine schwierige Struktur und jeder spricht Herausforderung. Jedoch kann dieser Schwierigkeit durch das Sammeln von verschiedenen Daten entgegengewirkt werden.

– Das Verstehen von Homonymen (Teekesselchen). Homonyme sind Wörter, die genau gleich klingen, aber eine ganz unterschiedliche Bedeutung haben und anders geschrieben werden. Um hier das richtige Wort zu wählen, ist es wichtig, den Zusammenhang zu kennen. Und obwohl moderne Spracherkennungssoftwares auf künstlicher Intelligenz basieren, ist es dennoch schwierig jeden einzelnen Kontext richtig zu interpretieren.

Wie kommt es, dass Amberscripts Software so genau ist?

Unsere Software erreicht schätzungsweise bis zu 95% Genauigkeit – so eine Qualität gab es bisher noch nicht auf dem niederländischen Markt. Hier erfährst du, woher diese unübertroffene Leistung kommt:

Smarte Architektur und Modellbau. Wir sind sehr stolz auf unser Team aus talentierten und hochqualifizierten Sprachwissenschaftlern, die ein ausgefeiltes Sprachmodell entwickelt haben, das sich immer weiter ausbauen lässt.

Große Mengen an Trainingsdaten. Sprache-zu-Text-Software basiert auf maschninellem Lernen. Mit anderen Worten – je mehr Daten du dem System zuführst, desto besser wird es! Wir haben Terabytes an Daten gesammelt und zugeführt, um ein solches Qualitätsniveau zu erreichen.

Ausgeglichener Datensatz. Um unseren Algorhythmus zu perfektionieren, haben wir verschiedene Arten an Daten verwendet. Unsere Spezialisten haben dafür gesorgt, möglichst heterogene Trainingsdaten zu sammeln und zu verwenden: männliche und weibliche Stimmen, verschiedene Stimmlagen, sowie verschiedene Akzente und Dialekte etc.

Szenarienerkundung. Wir haben unser Modell in den verschiedensten akustischen Umgebungen getestet, um eine verlässliche und stabile Leistung unter unterschiedlichen Aufnahmebedingungen garantieren zu können.

Was macht Amberscript so präzise?

Natürliches Sprachverständnis – Der nächste Meilenstein der Spracherkennung

Lasst uns über den nächsten großen Schritt für die gesamte Industrie sprechen: Natürliches Sprachverständnis (NLU). NLU ist ein Bereich der künstlichen Intelligenz, der erforscht, wie Maschinen menschliche Sprache verstehen und interpretieren kann. Natürliches Sprachverständnis ermöglicht es der Spracherkennung nicht nur, menschliche Sprache zu transkribieren, sondern auch die tatsächliche Bedeutung der Worte zu verstehen. Anders gesagt: Das Hinzufügen von NLU-Algorhythmen zu einer Sprache-zu-Text-Software kommt dem Hinzufügen eines Gehirns gleich.

Die natürliche Spracherkennung steht der größten Herausforderungen der Spracherkennung gegenüber: das Verstehen und Arbeiten mit einzigartigen und unbekannten Kontexten.

Was kann man mit natürlichem Sprachverständnis machen?

– Maschinelle Übersetzung. Diese wird bereits bei Skype genutzt – man kann in einer Sprache sprechen und diese gesprochene Sprache wird dann automatisch in Text auf einer anderen Sprache transkribiert. Das ist wie die nächste Generation von Google Translate. Und alleine diese Funktion hat enormes Potential – man muss sich nur einmal vorstellen, wie viel einfacher es wird, mit Menschen zu kommunizieren, die eine andere Sprache sprechen.

– Zusammenfassungen. Wir leben in einer Welt voller Daten – vielleich sogar zu viel. Stell dir mal vor, du hättest immer direkt die Zusammenfassung eines Artikels, eines Essays oder eine Email zur Hand.

– Kategorisierung von Inhalten. Ähnlich wie beim vorherigen Punkt, können Inhalte in verschiedene Themenbereiche und Kategorien eingeordnet werden. Suchmaschinen wie Google oder Youtube nutzen diese Funktion bereits.

– Analyse von Emotionen. Diese Technik zielt auf die Wahrnehmung und Sichtweise von Menschen ab – durch die systematische Analyse von Blogeinträgen, Bewertungen und Tweets. Diese Funktion wird schon von einigen Unternehmen genutzt, vor allem denjenigen, die auf Social Media aktiv sind.

Und wir kommen dem immer näher und näher! Wir wissen zwar nicht, wann wir in einer Welt voller Roboter leben werden, aber Maschinen sind auf jeden Fall jetzt schon in der Lage, grundlegende menschliche Emotionen zu verstehen.

– Plagiatsprüfung. Simple Plagiatstools können nur prüfen, ob Inhalte abgeschrieben sind oder nicht. Aber weiter fortgeschrittene Software, wie zum Beispiel Turnitin, kann sogar erkennen, ob der gleiche Inhalt einfach nur umformuliert wurde, was die Plagiatsprüfung um einiges genauer macht.

Wo wird NLU heutzutage bereits verwendet?

Es gibt viele Bereiche, in denen NLU (als Teildisziplin der natürlichen Sprachverarbeitung) bereits eine große Rolle spielt. Im Folgenden findest du einige Beispiele:

NLU
  1. Social-Media Analyse
  2. Psychologische Forschung
  3. Spam-Mail-Erkennung
  4. Sprachanalyse in Callcentern
  5. Und sogar…beim Lösen von Verbrechen

Was kommt als nächstes?

Wir arbeiten zurzeit an der Integration von NLU in unser System, um unsere Spracherkennungssoftware noch schlauer zu machen und die Anwendungsbereiche noch mehr auszuweiten.

Wir hoffen, wir konnten die helfen, die faszinierende Welt der Spracherkennung etwas besser kennenzulernen! Schau gerne auf unserem Blog vorbei, um noch mehr spannende Beiträge zu lesen!

Unsere Software ermöglicht das Erstellen von Text und Untertiteln aus Video oder Audio.

* Hochladen einer Audio- oder Videodatei
* Automatische oder manuelle Sprachausgabe in Text
* Bearbeiten und Exportieren von Text oder Untertiteln