Skip to content
Blog
9 minute read
8 Mai 2023

Comment fonctionne la saisie vocale ?

come funziona il riconoscimento vocale audio?
Topics
Automatic transcription
Sous-titres automatiques

Avec l’introduction de la saisie vocale tel qu’Alexa, Cortana, Siri et Google assistant, la reconnaissance vocale a commencé à remplacer la saisie manuelle comme un moyen d’interagir avec nos appareils numériques.

Quel est l’état actuel de la saisie vocale ?

Les développements technologiques récents dans le domaine de la reconnaissance vocale ont non seulement rendu notre vie plus pratique et notre flux de travail plus productif, mais aussi ouvert des opportunités, qui étaient considérées comme «miraculeuses» à l’époque.

Les logiciels de synthèse vocale ont une grande variété d’applications, et la liste continue de s’allonger chaque année. Santé, service client amélioré, recherche qualitative, journalisme – ce ne sont là que quelques-uns des secteurs où la conversion voix-texte a déjà changé la donne.

Pourquoi avons-nous besoin d’une transcription automatique ?

Les professionnels de divers domaines ont besoin de transcriptions de haute qualité pour effectuer leurs activités professionnelles. La technologie à la base de la saisie vocale progresse à un rythme rapide, la rendant plus dynamique, moins chère et plus pratique que la transcription manuelle.

Bien que la technologie ne soit pas encore là pour atteindre les performances humaines, la précision du logiciel peut atteindre 95%. Les services de transcription exigeaient autrefois du temps et de la main-d’œuvre, alors que l’implication humaine dans ce processus se limite désormais à de petits ajustements.

Une raison de plus – L’accessibilité numérique

Pourquoi la reconnaissance vocale automatique est-elle actuellement en plein essor ici en Europe? La réponse est assez simple: l’accessibilité numérique. Comme décrit dans la directive européenne 2016/2102, les gouvernements doivent prendre des mesures pour garantir à tous un accès égal à l’information. Les podcasts, vidéos et enregistrements audio doivent être accompagnés de légendes ou de transcriptions pour être accessibles aux personnes malentendantes.

Comment fonctionne la reconnaissance vocale automatique ?

P.s – si c’est trop long pour vous, n’hésitez pas à passer à l’infographie récapitulative au bas de cette page.

Le cœur d’un service de transcription automatique est le système de reconnaissance vocale automatique. En bref, de tels systèmes sont composés de composants acoustiques et linguistiques fonctionnant sur un ou plusieurs ordinateurs.

Le composant acoustique est responsable de la conversion de l’audio de votre fichier en une séquence d’unités acoustiques – de très petits échantillons sonores. Avez-vous déjà vu une forme d’onde du son? C’est ce que nous appelons le son analogique ou les vibrations que vous créez lorsque vous parlez – ils sont convertis en signaux numériques, de sorte que le logiciel puisse les analyser. Ensuite, les unités acoustiques mentionnées sont associées aux «phonèmes» existants – ce sont les sons que nous utilisons dans notre langue pour former des expressions significatives.

Par suite, le composant linguistique est chargé de convertir ces séquences d’unités acoustiques en mots, phrases et paragraphes. Il y a beaucoup de mots qui sonnent de la même manière, mais qui signifient des choses complètement différentes, comme conte, compte et comte.

La composante linguistique analyse tous les mots précédents et leur relation pour estimer la probabilité de savoir quel mot va être utilisé ensuite. Les geeks les appellent les «modèles de Markov cachés» – ils sont largement utilisés dans tous les logiciels de reconnaissance vocale. C’est ainsi que les moteurs de reconnaissance vocale sont capables de déterminer des parties du discours et des fins de mots (avec un succès varié).

Exemple: ils écoutent un podcast. Même si le son «-ent» du mot «écoutent» n’est pas prononcé, la composante linguistique peut quand même déterminer que le mot doit être épelé avec «-ent», car il a été précédé de «ils».

Vous pouvez facilement le tester dans la vraie vie, comme toute autre application de saisie vocale, Google Translate a des modèles de langage derrière lui. Vous pouvez saisir à la voix un mot aléatoire qui a plusieurs significations, puis fournir au traducteur un contexte (en mettant un mot dans une phrase). Il est très probable que vous obteniez une transcription et une traduction plus précises.

Avant de pouvoir utiliser un service de transcription automatique, ces composants doivent être formés de manière appropriée pour comprendre une langue spécifique. La partie acoustique de votre contenu, c’est-à-dire la façon dont il est parlé et enregistré, et la partie linguistique, c’est-à-dire ce qui est dit, sont essentielles pour la précision de la transcription qui en résulte.

Chez Amberscript, nous améliorons constamment nos composants acoustiques et linguistiques afin de perfectionner notre moteur de reconnaissance vocale.

Surprise… Il y a encore un autre modèle !

Il existe également quelque chose appelé «speaker model». Le logiciel de reconnaissance vocale peut être soit dépendant du locuteur, soit indépendant du locuteur.

Le modèle dépendant du locuteur est formé pour une voix particulière, telle que la solution de saisie vocale de Dragon. Vous pouvez également entraîner Siri, Google et Cortana à reconnaître uniquement votre propre voix (en d’autres termes, vous rendez l’assistant vocal dépendant du haut-parleur).

Cela se traduit généralement par une précision plus élevée pour votre cas d’utilisation particulier, mais il faut du temps pour entraîner le modèle à comprendre votre voix. En outre, le modèle dépendant du locuteur n’est pas flexible et ne peut pas être utilisé de manière fiable dans de nombreux contextes, tels que les conférences.

Vous l’avez probablement deviné – un modèle indépendant du locuteur peut reconnaître de nombreuses voix différentes sans aucune formation. C’est ce que nous utilisons actuellement dans notre logiciel chez Amberscript.

Tous les outils de reconnaissance vocale sont-ils identiques?

Non ! Il existe de nombreux outils de reconnaissance vocale qui servent à des fins différentes. Certains d’entre eux sont conçus pour des tâches répétitives simples, d’autres sont incroyablement avancés. Examinons les différents niveaux de reconnaissance vocale.

1) Avez-vous déjà appelé une entreprise, puis le robot vocal vous a demandé de laisser votre numéro de téléphone? C’est l’outil de reconnaissance vocale le plus simple, qui fonctionne sur le pattern-matching, il a un vocabulaire limité, mais il fait le travail (dans ce cas, comprendre les chiffres).

2) Le niveau suivant de reconnaissance vocale implique l’analyse statistique et la modélisation (comme les modèles de Markov cachés) – nous en avons déjà parlé dans l’une des sections précédentes.

3) Le niveau ultime de reconnaissance vocale est basé sur des réseaux de neurones artificiels – essentiellement, il donne au moteur la possibilité d’apprendre et de s’améliorer. Google, Microsoft, ainsi que notre moteur sont alimentés par l’apprentissage automatique.

Logiciel Speech To Text. Attentes vs. Réalité

Bien que la technologie de saisie vocale de la dernière décennie ait progressé à un rythme très rapide, les logiciels de synthèse vocale sont toujours confrontés à un certain nombre de défis. Les limitations actuelles des logiciels de reconnaissance vocale sont:

– Les conditions d’enregistrement. Les performances de la transcription humaine et automatisée dépendent largement des conditions d’enregistrement. Les logiciels de reconnaissance vocale ont encore du mal à interpréter la parole dans un environnement bruyant ou lorsque de nombreuses personnes parlent en même temps.

P.s – consultez notre article sur Comment améliorer votre qualité audio et optimiser la transcription de la parole en texte pour apprendre quelques conseils pratiques qui amélioreront la qualité de votre transcription automatique.

– Reconnaître certains dialectes et accents. La langue est une structure complexe, et tout le monde parle d’une manière légèrement différente. Une multitude de dialectes et d’accents créent une complexité supplémentaire pour le modèle. Cependant, cette complexité peut être gérée en rassemblant différents types de données.

– Comprendre les homonymes. Les homonymes sont des mots qui sonnent de la même manière, mais qui diffèrent par leur signification et leur orthographe. Par exemple, « court » et « cours » ou encore « soi » et « soie ». Le choix de la bonne option nécessite une compréhension du contexte. Bien que les moteurs de synthèse vocale modernes soient alimentés par l’IA, interpréter correctement le contexte unique reste difficile pour les machines.

Qu‘est-ce qui rend le système d’Amberscript si précis?

On estime que notre moteur atteint une précision de 95% – ce niveau de qualité était auparavant inconnu du marché néerlandais. Nous serions plus qu’heureux de partager, d’où vient cette performance inégalée:

– Architecture et modélisation intelligentes. Nous sommes fiers de travailler avec une équipe de talentueux spécialistes de la parole qui ont développé un modèle de langage sophistiqué, ouvert à une amélioration continue.

– De grandes quantités de matériel de formation. Le logiciel Speech-to-Text repose sur l’apprentissage automatique. En d’autres termes, plus vous alimentez le système en données, meilleures sont ses performances. Nous avons collecté des téraoctets de données pour atteindre un niveau de qualité aussi élevé.

– Balanced data. Afin de perfectionner notre algorithme, nous avons utilisé différentes sortes de données. Nos spécialistes ont obtenu une taille d’échantillon suffisante pour les deux sexes, ainsi que des accents et des tons de voix différents.

– Scenario exploration. Nous avons testé notre modèle dans diverses conditions acoustiques pour garantir des performances stables dans différents paramètres d’enregistrement.

Compréhension du langage naturel – La prochaine grande étape de la reconnaissance vocale

Discutons de la prochaine étape majeure pour l’ensemble du secteur, à savoir la compréhension du langage naturel (ou NLU). C’est une branche de l’intelligence artificielle, qui explore comment les machines peuvent comprendre et interpréter le langage humain. La compréhension du langage naturel permet à la technologie de reconnaissance vocale non seulement de transcrire le langage humain, mais aussi d’en comprendre le sens. En d’autres termes, ajouter des algorithmes NLU revient à ajouter un cerveau à un convertisseur parole-texte.

NLU vise à relever le défi le plus difficile de la reconnaissance vocale – comprendre et travailler avec un contexte unique.

Que pouvez-vous faire avec la compréhension du langage naturel ?

– Machine translation. C’est quelque chose qui est déjà utilisé dans Skype. Vous parlez dans une langue et votre voix est automatiquement transcrite en texte dans une autre langue. Vous pouvez voir ça comme le niveau suivant de Google Traduction. Cela seul a un potentiel énorme – imaginez à quel point il devient plus facile de communiquer avec des personnes qui ne parlent pas votre langue.

– Résumé des documents. Nous vivons dans un monde plein de données. Peut-être qu’il y a trop d’informations là-bas. Imaginez avoir un résumé instantané d’un article, d’un essai ou d’un e-mail.

– Content categorization. Semblable à un point précédent, le contenu peut être divisé en thèmes ou sujets distincts. Cette fonctionnalité est déjà implémentée dans les moteurs de recherche, tels que Google et YouTube.

– Analyse des sentiments. Cette technique vise à identifier les perceptions et opinions humaines grâce à une analyse systématique des blogs, des critiques ou même des tweets. Cette pratique est déjà mise en œuvre par de nombreuses entreprises, en particulier celles qui sont actives sur les réseaux sociaux.

Oui, nous y sommes ! Nous ne savons pas si nous allons nous retrouver dans un monde rempli de robots amicaux ou celui de Matrix, mais les machines peuvent déjà comprendre les émotions humaines basiques.

-Détection de plagiat. Des outils de plagiat simples vérifient uniquement si un élément de contenu est une copie directe. Un logiciel avancé comme Turnitin peut déjà détecter si le même contenu a été paraphrasé, ce qui rend la détection du plagiat beaucoup plus précise.

Dans quel domaine la compréhension du langage naturel (NLU) est-elle appliqué aujourd’hui ?

Il existe de nombreuses disciplines dans lesquelles la NLU (en tant que sous-ensemble du traitement du langage naturel) joue déjà un rôle important. Voici quelques exemples:

1. Analyse des médias sociaux
2. Recherche en psychologie
3. Détection des spams
4. Utilisation de l’analyse vocale dans les centres d’appels
5. Même… résoudre des crimes

Et après ?

Nous intégrons actuellement des algorithmes NLU dans nos systèmes pour rendre notre logiciel de reconnaissance vocale encore plus intelligent et applicable dans une plus large gamme d’applications.

Nous espérons que vous en connaissez maintenant un peu plus sur ce domaine fascinant de la saisie vocale! N’hésitez pas à consulter notre blog pour des lectures encore plus intéressantes !

Vous pourriez également être intéressé par cette lecture: