Skip to main content

Qu'est-ce que la reconnaissance vocale?

La reconnaissance vocale peut se référer à l'un des deux types d'informatique: l'identification vocale médico-légale ou la capacité de parole à texte.Cet article aborde cette dernière définition.

La reconnaissance vocale, ou la reconnaissance de la parole dans ce cas, est une technologie informatique qui utilise les entrées audio pour saisir des données plutôt qu'un clavier.Parler dans un microphone, par exemple, produit le même résultat que la saisie des mots manuellement avec un clavier.Indié simplement, le logiciel de reconnaissance vocale est conçu avec une base de données interne de mots ou de phrases reconnaissables.Le programme correspond à la signature audio de la parole avec des entrées correspondantes dans la base de données.

Bien que transformer la parole en texte puisse sembler facile, c'est une tâche extrêmement difficile.Le problème réside dans la gamme pratiquement infinie de modèles et d'accents de parole individuels, aggravés par la tendance humaine naturelle à exécuter des mots.

Une illustration des défis inhérents du logiciel de reconnaissance vocale apparaît sur un t-shirt créé par des chercheurs d'Apple.La chemise indique, j'ai aidé Apple à détruire une belle plage.Lorsqu'il est parlé à haute voix, on dirait: J'ai aidé Apple à reconnaître la parole.

Divers modèles de logiciels de reconnaissance vocale sont utilisés pour un éventail d'applications, de la dictée personnelle à un routage automatisé commercial, de l'aide aux handicapés aux sports et à l'événement d'actualitéssous-titrage.Chaque modèle se comporte différemment et a ses propres capacités et frontières.

Les programmes de reconnaissance vocale qui obligent l'utilisateur à former le logiciel à reconnaître leurs modèles de discours stylisés particuliers sont appelés Systèmes dépendants du haut-parleur .Les individus utilisent généralement ces types de programmes à la maison ou au bureau.Les e-mails, les mémos, les lettres, les données et le texte peuvent être entrés en parlant dans un microphone.

Certains systèmes de reconnaissance vocale, appelés discours discrets systèmes, nécessitent que l'utilisateur parle clairement et lentement et sépare les mots. Discours continu Les systèmes sont conçus pour comprendre un mode de parole plus naturel.

Les systèmes de reconnaissance vocale discrets sont largement utilisés pour le routage du service client.Le système est indépendant du haut-parleur , mais ne comprend qu'un petit bassin de mots ou de phrases.L'appelant a le choix de répondre à une question, généralement avec oui ou non.Après avoir reçu une réponse, le système dégénère l'appelant au niveau suivant.Si l'appelant répond avec une réponse unique, la réponse automatisée est généralement, désolé, je ne vous ai pas compris;Veuillez réessayer, avec une répétition de la question et des réponses disponibles.Ce type de reconnaissance vocale est également appelée La reconnaissance limitée par grammaire.

La parole continue est une forme plus sophistiquée de logiciel de reconnaissance vocale, dans lequel l'appelant peut parler naturellement pour expliquer un problème ou demander un service.Ce programme est conçu pour choisir des mots ou des phrases clés et faire une meilleure devine statistique quant à ce que le client veut.Parler clairement la reconnaissance vocale pour identifier le besoin.Ce type de système a une base de données beaucoup plus intensive que les systèmes vocaux discrètes et est également appelé

reconnaissance du langage naturel.

La reconnaissance automatique de la parole (ASR) est un modèle de reconnaissance vocale conçue pour la dictée.Ce logiciel diffère des modèles précédents en ce qu'il ne s'efforce pas de comprendre ce qui est dit, seulement pour identifier les mots prononcés.Étant donné que de nombreux mots dans la langue anglaise se ressemblent, des erreurs sont facilement faites.Cependant, les grandes entreprises comme Microsoft investissent dans la reconnaissance vocale, et Bill Gates est propre à la prédiction ASR comprenant le discours continu d'ici l'an 2011. Le logiciel ASR se trouve souvent sur les enregistreurs vocaux numériques.

Les acteurs dominants dans les logiciels de reconnaissance vocale ont été Scansoft et Nuance, avec l'ancienne société qui acquiert la seconde.Les petits acteurs incluent le discours de Fonix, l'aculab et le verbio, entre autres, avec les grandes sociétésComme IBM et le Microsoft susmentionné investissant également dans la technologie.Bien que beaucoup pensent encore qu'il est plus difficile de former des logiciels et de corriger les erreurs que d'utiliser simplement un clavier, un moment arrive lorsque le logiciel de reconnaissance vocale comblera probablement cet écart.L'augmentation des claviers avec la capacité de discrimination à utiliser le discours deviendra probablement monnaie courante.

Le logiciel de reconnaissance vocale gagne en popularité à mesure qu'il devient plus sophistiqué.Il est particulièrement utile dans les affaires où il peut remplacer un opérateur en direct pour canaliser les appels, diffuser des informations, prendre des commandes et effectuer d'autres fonctions très utiles.Cependant, il gagne également service en tant qu'application de bureau, aidé par des logiciels renommés comme les scansofts, DragonNaturallySpeaking et IBMS ViaVoice .