Skip to content
Blog
5 minute read
1 Mar 2023

Modèle de ponctuation néerlandaise

Topics
Automatic transcription

Les aspects grammaticaux comme le gérondif, les prépositions et les règles de grammaire de base jouent un rôle important dans la plupart des langues connues. Avez-vous déjà pensé au fait que la ponctuation joue également un rôle essentiel ? La ponctuation est importante dans une langue. Elle implique la disposition correcte de petites marques, parfois à peine perceptibles, à des endroits appropriés pour indiquer la longueur exacte et le sens de la phrase. Dans la suite du texte, nous allons examiner de plus près le modèle de ponctuation IA que nous avons développé pour notre système de reconnaissance vocale en néerlandais.

Le rôle de la ponctuation dans la langue

La ponctuation fait partie intégrante du texte écrit et contribue à le rendre intelligible et cohérent. L’absence de ponctuation nuit à la lisibilité et peut rendre les textes incompréhensibles. En outre, les signes de ponctuation réduisent l’ambiguïté. Prenons cet exemple où une virgule peut complètement modifier le sens d’une phrase :

“Tu veux manger Thomas ?”

vs

“Tu veux manger, Thomas ?”

L’absence de ponctuation peut également conduire à des phrases maladroites, comme dans cet exemple classique :

“Je trouve l’inspiration en cuisinant ma famille et mon chien”

La ponctuation dans la transcription de la parole vers le texte

Par conséquent, les systèmes de conversion de la parole vers le texte doivent inclure la ponctuation lorsqu’ils produisent une transcription. Cependant, les systèmes classiques de reconnaissance automatique de la parole ne produisent pas de signes de ponctuation puisqu’ils n’ont pas de forme orale. De plus, la transcription générée est composée uniquement de mots en minuscules, ce qui la rend difficile à comprendre. Une transcription correctement ponctuée facilite également la création automatique de sous-titres pour les vidéos.

Ce problème peut être résolu en intégrant un modèle de ponctuation séparé qui peut ajouter automatiquement la ponctuation à la sortie d’un modèle de reconnaissance automatique de la parole. Il peut être considéré comme un problème de traitement du langage naturel dont l’objectif est de prédire le signe de ponctuation (ou son absence) pour chaque mot d’une transcription.

Modèles de langages

L’apprentissage approfondi a connu d’énormes progrès au cours des dernières années, alimentés par l’augmentation de la puissance de calcul. Le domaine du traitement du langage naturel a été pris d’assaut par l’introduction de BERT en 2018. Développé par Google AI, BERT est un grand modèle de langage basé sur l’architecture du transformateur. Il a été présenté comme le moment ImageNet du traitement automatique de la parole, en référence à la façon dont ImageNet a orienté les progrès de l’apprentissage de la représentation à partir d’images dans le domaine de la vision par ordinateur. BERT constitue une amélioration notable par rapport aux modèles antérieurs de représentation du langage, tels que les encastrements GloVe, et aux représentations contextuelles telles que ELMo.

Pour une explication plus intuitive du fonctionnement de BERT, reportez-vous à cet excellent blog de Jay Alammarhis excellent blog post by Jay Alammar. En résumé, BERT est entraîné sur des textes bruts de manière auto-supervisée, c’est-à-dire sans annotations humaines. Plus précisément, il est entraîné à deux tâches : la modélisation du langage masqué et la prédiction de la phrase suivante. À la fin de l’entraînement, le modèle est dit « pré-entraîné » et capture la sémantique du langage avec ses représentations de mots et de phrases. Un BERT pré-entraîné peut ensuite être affiné sur une tâche de traitement automatique des langues en aval. Lors de sa publication, BERT a produit des résultats de pointe après un réglage fin sur une série de tâches de traitement automatique des langues, y compris l’inférence en langage naturel, la réponse à des questions, etc.

Modèle de ponctuation chez Amberscript

Chez Amberscript, nous développons des modèles de reconnaissance automatique de la parole personnalisés, dont un pour le néerlandais. Comme indiqué précédemment, les transcriptions produites par le modèle sont dépourvues de signes de ponctuation. Actuellement, il n’existe aucun modèle de ponctuation libre spécifique à la langue néerlandaise. Nous avons donc développé un modèle de ponctuation basé sur BERT pour ajouter automatiquement les signes de ponctuation suivants : point d’interrogation, point, point d’exclamation, virgule, deux-points et point-virgule. Les autres signes de ponctuation qui apparaissent par paires, tels que les guillemets et les parenthèses, sont beaucoup plus difficiles à déterminer sur la seule base du texte.

Transformez votre audio et vos vidéos en texte et sous-titres

  • Un service de haute précision, à la demande
  • Prix compétitifs et délais d’exécution rapides grâce à l’IA
  • Téléchargez, recherchez, éditez et exportez des sous-titres en toute simplicité

Pipeline

L’ensemble du pipeline de reconnaissance automatique de la parole se compose donc de trois éléments principaux : le modèle de reconnaissance automatique de la parole qui produit du texte en minuscules, un module de post-traitement qui met en majuscules les entités nommées (noms de personnes, de lieux, etc.), effectue une dénormalisation des nombres, des corrections orthographiques, etc. et enfin, un modèle de ponctuation qui ajoute les signes de ponctuation nécessaires.

Infographic explaining Amberscript's 5-step punctuation process - from audio to finished transcript
Infographie expliquant le processus de ponctuation en 5 étapes d’Amberscript – de l’audio à la transcription finale.

Démonstration

Pour montrer le modèle de ponctuation en action, nous pouvons prendre cet exemple de sortie du modèle de reconnaissance automatique de la parole :

nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen

Le résultat de l’application du post-traitement et du modèle de ponctuation est le suivant :

Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.

Remarquez que la transcription du modèle de reconnaissance automatique de la parole est difficile à lire, alors que la transcription finale après ajout de signes de ponctuation est plus naturelle.

Ponctuation incluse dans les transcriptions à effectuer à partir d’Amberscript

Si vous recherchez une transcription claire et précise, avec une ponctuation correcte, vous devriez essayer d’utiliser un service de transcription automatique d’Amberscript.

Nous proposons des options de transcription rapides, précises et abordables qui amélioreront certainement vos flux de travail. En outre, si vous avez besoin de la transcription la plus précise, vous devriez essayer la transcription manuelle d’Amberscript. Nos experts linguistiques sont des locuteurs natifs et créent les textes les plus précis en « clean read » (texte rendu plus lisible) ou « verbatim » (tous les mots tapés exactement comme ils ont été dits).