Skip to content
Blog
4 Min. Lesezeit
20 Jun 2023

Niederländisches Interpunktionsmodell

Topics
Automatische Transkription

Grammatikalische Aspekte wie Gerundium, Präpositionen und grundlegende grammatikalische Regeln spielen in den meisten bekannten Sprachen eine wichtige Rolle. Haben Sie schon einmal darüber nachgedacht, dass auch die Interpunktion eine wichtige Rolle spielt?

Interpunktion ist in der Sprache wichtig. Sie bedeutet die korrekte Anordnung von kleinen, manchmal kaum wahrnehmbaren Zeichen an den richtigen Stellen, um die genaue Länge und die Bedeutung des Satzes anzuzeigen.

Im folgenden Text werden wir einen genaueren Blick auf das KI-Interpunktionsmodell werfen, das wir für unser Spracherkennungsmodell für Niederländisch entwickelt haben.

Die Rolle der Zeichensetzung in der Sprache

Die Interpunktion ist ein wesentlicher Bestandteil des geschriebenen Textes und trägt zur Verständlichkeit und Kohärenz des Textes bei. Das Fehlen von Interpunktion beeinträchtigt die Lesbarkeit und kann Texte unverständlich machen. Außerdem verringern Satzzeichen die Mehrdeutigkeit. Wie in diesem Beispiel ersichtlich kann ein Komma die Bedeutung eines Satzes völlig verändern:

“Schüler:innen sagen, Lehrer:innen haben es gut.”

vs

“Schüler:innen, sagen Lehrer:innen, haben es gut.”

Interpunktion in Sprache-zu-Text

Daher müssen Sprache-zu-Text-Systeme Satzzeichen enthalten, wenn sie ein Transkript erstellen. Typische automatische Spracherkennungssysteme (ASR) geben jedoch keine Interpunktionszeichen aus, da sie keine gesprochene Form haben. Außerdem besteht das erzeugte Transkript nur aus klein geschriebenen Wörtern, was es schwer verständlich macht. Ein korrekt interpunktiertes Transkript hilft auch bei der automatischen Generierung von Untertiteln für Videos.

Dieses Problem kann durch die Integration eines separaten Interpunktionsmodells gelöst werden, das automatisch Interpunktion zur Ausgabe eines ASR-Modells hinzufügen kann. Es kann als ein Problem der natürlichen Sprachverarbeitung (NLP) betrachtet werden, bei dem das Ziel darin besteht, das Satzzeichen (oder das Fehlen desselben) für jedes Wort in einer Abschrift vorherzusagen.

Sprachliche Modelle

Deep Learning hat in den letzten Jahren enorme Fortschritte gemacht, die durch die steigende Rechenleistung begünstigt wurden. Der Bereich NLP wurde 2018 durch die Einführung von BERT im Sturm erobert. BERT wurde von Google AI entwickelt und ist ein großes Sprachmodell, das auf der Transformator-Architektur basiert. Es wurde als der ImageNet-Moment des NLP angepriesen, was sich darauf bezieht, wie ImageNet den Fortschritt beim Lernen von Repräsentationen aus Bildern im Bereich der Computer Vision gesteuert hat. BERT ist eine deutliche Verbesserung gegenüber früheren Sprachrepräsentationsmodellen wie GloVe-Embeddings und kontextuellen Repräsentationen wie ELMo.

Eine intuitive Erklärung der Funktionsweise von BERT finden Sie in diesem hervorragenden Blogbeitrag von Jay Alammar. Vereinfacht ausgedrückt wird es auf Rohtexten selbstüberwacht trainiert, d. h. ohne menschliche Annotationen. Konkret wird es für zwei Aufgaben trainiert – maskierte Sprachmodellierung und Vorhersage des nächsten Satzes. Am Ende des Trainings wird das Modell als „vortrainiert“ bezeichnet und erfasst die Semantik der Sprache mit seinen Wort- und Satzrepräsentationen. Ein vortrainiertes BERT kann dann in einer nachgelagerten NLP-Aufgabe feinabgestimmt werden. Als es veröffentlicht wurde, lieferte BERT nach der Feinabstimmung bei einer Reihe von NLP-Aufgaben, einschließlich der Inferenz natürlicher Sprache (NLI), der Beantwortung von Fragen usw., Ergebnisse auf dem neuesten Stand der Technik.

Interpunktionsmodell bei Amberscript

Bei Amberscript entwickeln wir kundenspezifische ASR-Modelle, eines davon für Niederländisch. Wie bereits erwähnt, fehlen in den von diesem Modell erzeugten Transkripten Satzzeichen. Derzeit gibt es keine quelloffenen Interpunktionsmodelle, die für die niederländische Sprache spezifisch sind. Daher haben wir ein Interpunktionsmodell auf der Grundlage von BERT entwickelt, das automatisch die folgenden Interpunktionszeichen hinzufügt: Fragezeichen, Punkt, Ausrufezeichen, Komma, Doppelpunkt und Semikolon. Andere Satzzeichen, die paarweise auftreten, wie zum Beispiel Anführungszeichen und Klammern, sind viel schwieriger allein anhand des Textes zu bestimmen.

zwei frauen sitzen am tisch und unterhalten sich
Unverbindliches Angebot anfragen

Angebot anfragen

Pipeline

Die gesamte ASR-Pipeline besteht aus drei Hauptkomponenten – dem ASR-Modell, das klein geschriebenen Text erzeugt, einem Nachbearbeitungsmodul, das benannte Entitäten (Namen von Personen, Orten usw.) groß schreibt, Zahlen denormalisiert, Rechtschreibkorrekturen vornimmt usw., und schließlich einem Interpunktionsmodell, das die erforderlichen Interpunktionszeichen hinzufügt.

Demonstration

Um das Interpunktionsmodell in Aktion zu zeigen, können wir dieses Output Beispiel aus dem ASR-Modell nehmen:

nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen

Das Ergebnis der Nachbearbeitung und der Anwendung des Interpunktionsmodells sieht folgendermaßen aus:

Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.

Beachten Sie, dass die Ausgabe des ASR-Modells schwer zu lesen ist, während die endgültige Abschrift nach dem Hinzufügen von Satzzeichen natürlicher wirkt.

Interpunktion in Transkripten von Amberscript

Wenn Sie eine saubere, genaue Abschrift mit korrekter Zeichensetzung wünschen, sollten Sie einen automatischen Transkriptionsdienst von Amberscript nutzen.

Wir bieten schnelle, genaue und erschwingliche Transkriptionsoptionen, die Ihre Arbeitsabläufe verbessern werden.

Wenn Sie darüber hinaus eine möglichst genaue Abschrift benötigen, sollten Sie die manuelle Transkription von Amberscript ausprobieren. Unsere Sprachexpert:innen sind Muttersprachler:innen und erstellen die genauesten Texte in sauberer Lesart (der Text wird lesbarer gemacht) oder wortwörtlich (alle Wörter werden genau wie gesagt getippt).

Interesting topics