Skip to content
Blog
4 Min. Lesezeit
3 Jul 2023

Sprechertags zu Audiodateien für die Transkription hinzufügen

Topics
Automatische Transkription

In diesem Blogbeitrag wird der Prozess der Diarisierung beschrieben, das heißt das Hinzufügen von Sprechertags zu einer Audiodatei für die Transkription. Es werden Techniken zur Arbeit mit Sprechervektoren und eine einfache Methode zur Durchführung mit unserem Tool beschrieben.

Was ist Diarisierung (Hinzufügen von Sprechertags)?

Das Hinzufügen von Sprechertags zur Transkription oder die Beantwortung der Frage „Wer hat wann gesprochen?“ wird Diarisierung bezeichnet.

Diese Aufgabe ist nicht so einfach, wie es scheint. Algorithmen haben nicht annähernd das gleiche Verständnis von Klang, wie wir es haben. Es geht darum, die Anzahl der Sprecher:innen und den Zeitpunkt, zu dem sie gesprochen haben, anhand des Schallwellensignals zu ermitteln.

Außerdem ist es ein notwendiger Schritt in automatischen Spracherkennungssystemen, da es uns ermöglicht, die Texttranskription zu organisieren und zusätzliche Informationen über den Ton zu erhalten.

Bei Amberscript haben wir verschiedene Ansätze analysiert und den besten davon in unser Produkt integriert. In diesem Beitrag finden Sie einige Elemente der bestehenden Techniken, gefolgt von einer kurzen Anleitung, wie Sie mit unserem Tool Sprechertags hinzufügen können.

Warum ist die Diarisierung eine komplizierte Aufgabe?

Das Hinzufügen von Sprechertags ist nicht einfach, da es viele Schritte umfasst. Lassen Sie uns kurz den üblichen Ablauf durchgehen.

Zuerst müssen Sie das Audiomaterial in Sprachsegmente aufteilen. Das bedeutet, dass Sie die Teile ohne Sprache entfernen und die Audiosegmente an den Sprecherwechseln aufteilen, so dass Sie am Ende Segmente mit nur eine:m:r Sprecher:in haben.

Nach der Aufteilung müssen Sie einen Weg finden, die Segmente, die zu demselben oder derselben Sprecher:in gehören, unter demselben Sprechertag zusammenzufassen. Diese Aufgabe ist wiederum in mehrere Schritte unterteilt.

Man muss einen Sprechervektor für die Segmente extrahieren und dann die Sprechervektoren clustern, um schließlich die Vektoren im selben Cluster unter demselben Sprechertag neu zu gruppieren. Die Schwierigkeit dieser Aufgabe ist der Ursprung des DIHARD genannten Diarisierungswettbewerbs.

Nun geht es an die Extraktion der besagten Sprechervektoren.

Automatische Generierung von Sprechervektoren

Normalerweise ist die Erstellung der Aktivitätssegmente nicht der komplizierteste Teil. Dies wird als Speech Activity Detection (SAD) oder Voice Activity Detection (VAD) bezeichnet. In der Regel wird dazu ein Schwellenwert für die Aktivität zu einem bestimmten Zeitpunkt im Audiomaterial verwendet.

Die vollständige Liste wäre noch viel länger, aber wir werden uns auf die gängigsten Techniken beschränken.

NameInternes Tool
i-VektorenStatistische Modelle
x-Vektoren Zeitverzögerte neuronale Netze
d-Vektoren Rekurrierende neuronale Netze
ClusterGAN Generative kontradiktorische Netzwerke

I-Vektor basiert auf Verborgene Markov-Ketten und Gauß’sche Mischungsmodelle: zwei statistische Modelle zur Schätzung von Sprecherwechseln und zur Bestimmung von Sprechervektoren auf der Grundlage einer Reihe bekannter Sprecher:innen. Es handelt sich um ein altes Verfahren, das immer noch verwendet werden kann.

X-Vektoren und d-Vektoren basieren auf neuronalen Netzwerken, die für die Erkennung einer Reihe von Sprechern und Sprecherinnen trainiert wurden. Diese Systeme sind leistungsfähiger, erfordern jedoch mehr Trainingsdaten und einen höheren Einrichtungsaufwand. Ihre Merkmale werden als Sprechervektoren verwendet.

ClusterGAN geht noch einen Schritt weiter und versucht, einen bestehenden Sprechervektor in einen anderen umzuwandeln, der bessere Informationen enthält, indem drei neuronale Netzwerke gegeneinander antreten.

Wenn dieser Schritt abgeschlossen ist, haben wir Sprechervektoren für jedes Segment.

Clustering der Sprechervektoren

Nachdem Sie diese Sprechervektoren erhalten haben, müssen Sie diese clustern. Dabei werden Sprechervektoren gruppiert, die sich ähneln und daher wahrscheinlich zu demselben oder derselben Sprecher:in gehören.

Das Problem bei diesem Schritt ist, dass Sie nicht unbedingt die Anzahl der Sprecher:innen für eine bestimmte Datei (oder einen Satz von Dateien) kennen, so dass Sie nicht sicher sind, wie viele Cluster Sie erhalten möchten. Ein Algorithmus kann versuchen, dies zu erraten, liegt dabei aber möglicherweise falsch.

Auch hier gibt es mehrere Algorithmen, die zur Erfüllung dieser Aufgabe verwendet werden können; die gebräuchlichsten sind in der nachstehenden Tabelle aufgeführt:

NameInternes Tool
K-meansIterative Clusterbildung
PLDAStatistische Modelle
UIS-RNNRekurrentes neuronales Netzwerk

PLDA bezieht sich auf ein Scoring-Verfahren, das in einem anderen Algorithmus verwendet wird. K-means ist normalerweise die Standardmethode für das Clustering, aber Sie müssen einen Abstand zwischen zwei Sprechervektoren definieren, und PLDA ist für diesen Fall besser geeignet.

UIS-RNN ist eine neuere, sehr vielversprechende Technik. Sie ermöglicht eine Online-Dekodierung, bei der neue Sprecher:innen hinzugefügt werden, sobald sie erscheinen.

Nach dem Schritt der Clusterbildung können Sie die Sprechertags zu den Segmenten hinzufügen, die zum selben Cluster gehören, so dass Sie am Ende Tags für jedes Segment haben.

Was ist nach der Diarisierung noch zu tun für eine vollständige Transkription?

Wenn die Diarisierung abgeschlossen ist, müssen Sie die Datei noch transkribieren (das heißt den Text aus der Audiodatei herausholen), aber die Technologie, die dahinter steckt, verdient einen anderen Beitrag!

Die Ausgabe der Transkription ist dann eine vollständige Transkription mit den Wörtern der Audiodatei und den Sprechern und Sprecherinnen, die jedem Teil des Textes zugeordnet sind.

Hinzufügen von Sprechertags mit dem Amberscript-Tool

Nun zum wichtigsten Teil: Wie können Sie die besagten Sprechertags hinzufügen, ohne all die oben genannten technischen Schritte durchführen zu müssen?

Gehen Sie einfach auf unsere Website und melden Sie sich an. Danach können Sie eine Datei hochladen und die Anzahl der Sprecher:innen auswählen (für eine bessere Genauigkeit) und dann den Algorithmus laufen lassen!

Sie müssen sich nicht darum kümmern, welche Technik Sie wählen. Nach ein paar Minuten ist Ihre Datei vollständig transkribiert, und Sie können im Editor überprüfen, ob die Sprechertags korrekt hinzugefügt wurden.

Sie können sogar Fehler korrigieren, falls Sie welche finden, und Ihr Transkript dann zur Veröffentlichung herunterladen.

Zusammenfassend lässt sich sagen, dass es viele Diarisierungstechniken gibt und dieser Prozess wirklich kompliziert ist. Wir haben ein Tool entwickelt, das die beste verfügbare Technik verwendet, um Ihnen das Hinzufügen von Sprechertags zu Ihren Audiodateien zu ermöglichen, damit Sie die beste Transkription erhalten können.

Interesting topics