Skip to main content

Quelles sont les différentes techniques de reconnaissance vocale?

Plusieurs techniques de reconnaissance de la parole sont utilisées pour capturer des mots parlés et les convertir en données qui peuvent être utilisées par un logiciel.Il existe trois grandes façons d'analyser la parole dans le but de déterminer ce qui est dit.Le premier est appelé discours discret, ce qui signifie qu'un seul mot est prononcé à la fois.Le second est connu sous le nom de discours connecté, et les mots doivent être prononcés d'une certaine manière pour être compris.Enfin, il y a une parole continue, c'est ainsi que la plupart des gens parlent normalement.

L'algorithme le plus courant utilisé pour tous les types de techniques de reconnaissance de la parole est le modèle de Markov caché (HMM).Ce système implique de grands arbres de données de phonèmes, ou sons et syllabes de base, qui sont divisés par la probabilité statistique d'un son après un autre.En comparant chaque phonème à un nœud dans l'arbre de données des sons, le mot terminé réel peut être déterminé avec un taux de précision élevé dans une période de temps relativement courte.

Un problème difficile à surmonter avec certaines techniques de reconnaissance de la parole estisoler où un mot commence et se termine.Cette tâche est compliquée par le bruit de fond dans la pièce et le fait que certaines syllabes ont une signature audio qui ressemble à une rupture entre les mots.Pour cette raison, les techniques de reconnaissance de la parole discrètes et connectées sont les plus précises.

Un autre facteur qui sépare différentes techniques de reconnaissance de la parole est la question du vocabulaire logiciel.Les logiciels qui interprètent la parole peuvent avoir un vocabulaire très limité avec une précision élevée, soit un grand vocabulaire qui doit être adapté aux modèles de discours individuels d'un utilisateur spécifique.Lorsqu'un programme utilise la méthode HMM pour assembler des mots, moins le nombre de mots comprend, plus le programme peut être précis.C'est la méthode que la plupart des systèmes téléphoniques automatisés utilisent pour déchiffrer les nombres ou les réponses aux questions.

Les techniques de reconnaissance de la parole qui comprennent un grand vocabulaire sont généralement conçues pour interagir avec très peu ou un seul utilisateur.En effet, le programme doit être formé pour comprendre les modèles de discours de la personne qui parle.La formation consiste à lire des paragraphes de texte préfabriqués au logiciel.Les mots lus sont connus, donc le programme est capable de créer un modèle statistique de phonèmes spécifique à l'utilisateur.Cela donne au programme une bien meilleure chance de comprendre l'utilisateur, mais cela pourrait également entraver les programmes de compréhension des personnes avec qui il n'a pas formé.

La plus difficile des techniques de reconnaissance vocale est l'interprétation de la parole continue ou naturelle.Beaucoup de gens ont tendance à exécuter des mots ensemble et à parler à différentes vitesses, de sorte que la précision des programmes qui traduisent la parole continue est inférieure à celle des autres méthodes.Pourtant, des programmes existent qui peuvent traduire ce type de discours, certains d'entre eux utilisant une logique floue et des réseaux de neurones pour aider à reconnaître les modèles et à isoler les mots.