Skip to content
3 Min. Lesezeit
27 Jun 2022

Lernen Sie die NLP-Ingenieurin von Amberscript kennen: Esther van den Berg

Topics
Automatische Transkription
Automatische Untertitel
Digitale Barrierefreiheit
Manuelle Transkription
Manuelle Untertitel

Unter automatischer Spracherkennung (engl.: ASR) versteht man die Umwandlung von Sprache in lesbaren Text mithilfe von Technologien des maschinellen Lernens oder der künstlichen Intelligenz (KI). In den letzten zehn Jahren hat sich die Technologie explosionsartig entwickelt. ASR-Systeme finden sich in alltäglichen Anwendungen wie TikTok und Instagram für Echtzeit-Untertitel, Spotify für Podcast-Transkriptionen, Konferenztranskriptionen für Zoom und in vielem mehr! 

Wir haben uns mit Esther van den Berg, Natural Language Processing Engineer bei Amberscript, zusammengesetzt, um mehr darüber zu erfahren, wie ASR bei Amberscript funktioniert, um möglichst genaue Transkripte und Untertitel zu erstellen. 

„Es ist offensichtlich, warum es wichtig ist, Untertitel zu verwenden, und wie diese allen Arten von Menschen helfen. Daher ist es sehr schön, wenn man etwas entwickelt und aufbaut.“

Esther van den Berg, NPL Engineer bei Amberscript
R. Van der Holst

Hallo Esther, kannst du uns ein wenig über dich erzählen?

Ich bin Niederländerin, habe Linguistik studiert und dann gelernt, wie man programmiert. In den Niederlanden und in Deutschland habe ich mich immer weiter in Sachen Sprachtechnologie fortgebildet. Als es an der Zeit war, einen Job zu suchen, wusste ich, dass ich das Gefühl haben wollte, dass das, woran ich arbeite und was ich aufbaue, einen Beitrag zum Leben des Kunden leistet.

Amberscript ist meine erste Vollzeitstelle, und ich arbeite an der Verwendung von ASR als Teil unseres Produkts zur Erstellung von Transkripten und Untertiteln.

Wie sieht ein durchschnittlicher Tag bei Amberscript für dich aus?

Ich bin im Engineering-Team tätig. Wir entwickeln Software in einer agilen Umgebung. Das bedeutet, dass wir sowohl eine längerfristige Strategie haben, wie wir das Produkt verbessern wollen, als auch kurzfristige Ziele, um sicherzustellen, dass das Produkt in seinem aktuellen Zustand gut für unsere Kunden funktioniert und kontinuierlich neue Funktionen und Verbesserungen geliefert werden. Ich arbeite hauptsächlich an der Entwicklung unserer internen Sprachmodelle und am Post-Processing, d. h. an der Anwendung sprachspezifischer Regeln, um den von der ASR-Engine produzierten Text noch besser zu machen.

Kannst du uns mehr über Sprachmodelle erzählen?

Ein Sprachmodell ist der Teil einer ASR-Engine, der Muster darin erkennt, welche Wörter wahrscheinlich auf andere Wörter folgen werden. Man kann Sprachmodelle verbessern, indem man mit mehr oder neueren Daten trainiert. Wir verwenden sie, um Transkripte so genau wie möglich zu machen. Außerdem versuchen wir, einen Text zu erstellen, der von unseren Mitarbeitern der Transkriptionsabteilung leicht und schnell korrigiert werden kann.

Gibt es einen Unterschied zwischen automatischer Spracherkennung und natürlicher Sprachverarbeitung?

ASR ist eine Art der Verarbeitung natürlicher Sprache. Bei der Verarbeitung natürlicher Sprache handelt es sich um jede Art von Textgewinnung oder -verarbeitung, bei der die Eingabe für den Computer Sprache ist, entweder Text oder gesprochene Sprache. ASR ist speziell die Verarbeitung von gesprochener Sprache zur Erzeugung von Text. Man kann die ASR-Technologie auch als „Speech-to-Text“-Technologie bezeichnen.

Als du dich bei Amberscript beworben hast, was ist dir aufgefallen und warum?

Was an den technischen Aufgaben bei Amberscript auffällt, ist, wie konkret, greifbar und wertvoll das Produkt ist. Es ist offensichtlich, warum es wichtig ist, Untertitel zu verwenden, und wie diese allen Arten von Menschen helfen. Daher ist es sehr schön, wenn man etwas entwickelt und aufbaut.

Außerdem ist mir aufgefallen, dass Amberscript ein Unternehmen ist, bei dem die Verarbeitung natürlicher Sprache fester Bestandteil des Produkts ist. Das macht es also interessant für Leute, die über ASR oder einen Hintergrund in der Verarbeitung natürlicher Sprache verfügen. Das ist sehr motivierend!

Umwandlung von Audio und
Video in Text und Untertitel

  • Präziser, on-demand Service
  • Wettbewerbsfähige Preise mit schnellster Bearbeitungszeit dank KI
  • Einfaches Hochladen, Suchen, Bearbeiten und Exportieren.

Unsere Software ermöglicht das Erstellen von Text und Untertiteln aus Video oder Audio.

* Hochladen einer Audio- oder Videodatei
* Automatische oder manuelle Sprachausgabe in Text
* Bearbeiten und Exportieren von Text oder Untertiteln