Skip to main content

Quels sont les problèmes de reconnaissance de la parole les plus courants?

Le logiciel de reconnaissance vocale a considérablement progressé depuis sa première invente, mais il a encore plusieurs gros problèmes qui l'empêchent d'être utilisé exclusivement comme méthode de transcription.Certains des problèmes de reconnaissance de la parole qui sont difficiles à résoudre comprennent des variations dans la prononciation des mots, des accents individuels, des homonymes et des bruits ambiants indésirables.Un autre ensemble de problèmes de reconnaissance vocale implique le type de matériel utilisé pour saisir réellement le son, car les résultats peuvent avoir un impact important sur la façon dont le logiciel interprétera la parole.Il y a aussi le problème de ne pas connaître le contexte des mots prononcés, ce qui peut conduire à un texte qui n'a pas de ponctuation ou d'orthographe inexacte.

L'un des problèmes de reconnaissance de la parole les plus élémentaires est la qualité des appareils d'entrée utilisés.Si un microphone n'est pas suffisamment sensible mdash;ou est trop sensible mdash;Ensuite, il peut créer des informations audio qui sont difficiles à déchiffrer le logiciel.Cela est particulièrement vrai lorsqu'un microphone est si sensible que le discours est déformé, ce qui rend le logiciel de reconnaissance presque inutile.Un problème similaire découle du bruit de fond qui peut être problématique pour se séparer du discours principal et peut provoquer des traductions inexactes lorsqu'elles sont incluses dans le traitement de la parole.

Les différences de prononciation, d'accents et de cadence de parole se combinent pour former l'une des plus omniprésents de reconnaissance vocaleproblèmes.Lorsqu'un seul mot peut être prononcé de plusieurs manières, le logiciel peut devenir confus et mal interpréter ce qui est dit.La même chose peut se produire lorsqu'une personne parle plus lentement ou plus rapidement que le programme.Il existe des solutions partielles, telles que la formation du logiciel dans les modèles de parole d'un seul utilisateur et l'utilisation d'algorithmes de barrage temporel dynamique pour correspondre à la parole à la base de données des échantillons, mais ils ne résolvent pas tous les problèmes.

Le plus complexedes problèmes de reconnaissance de la parole consiste à identifier le contexte des mots prononcés.Les logiciels informatiques ne sont pas en mesure d'identifier le sens prévu d'une collection de mots, conduisant à un certain nombre de problèmes avec le texte transcrit.Les mots qui ont un son similaire, comme leur et là, ne peuvent être orthographiés avec précision que lorsque le contexte de l'utilisation est connu.Pour cette même raison, la ponctuation précise est presque impossible pour le logiciel de placer uniquement sur la connaissance de la séquence des mots.Il existe un logiciel de transcription fonctionnel qui est utilisé dans des champs tels que la médecine, mais le résultat est souvent un bloc de mots sans aucun type de séparation, ce qui signifie qu'il faut toujours un transcripteur humain pour modifier le document et créer une copie finale lisible.