Algorithmes de reconnaissance vocale

**Raynor74** · 15/08/2015, 17h30

Bonjours,
je voudrai, programmer une reconnaissances vocales servant à la domotique et pour ça j'ai besoin d'un moteur de reconnaissance vocale. Et pour cela il me faut un algorithmes qui doit le faire mais j'aimerai que vous me dites tout ce qu'il faudrait qu'il fasse(même si j'ai déjà ma petite idée) et que vous m'orienter vers des cour de mathématiques informatique pour que je puisse êtres capable de monter cet algorithmes.

Merci de vos réponse

**Flodelarab** · 16/08/2015, 01h49

Bonjour

Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.

**Raynor74** · 16/08/2015, 09h54

Pourquoi me dire de laisser tomber, si on abandonne sans essayer on ne pourra jamais rien faire. Tout ce qui a été créé aujourd’hui résulte de plusieurs essais pour y arriver. donc je souhaite que les gens qui me répondent, répondent à mes questions ou essayent de m'apporter l'aide dont j'ai besoin et pas de me dire qu'il faut que j'abandonne sans avoir essayé.

Merci

**dourouc05** · 16/08/2015, 10h44

La question est plutôt de savoir les ressources que tu as à ta disposition (et tes objectifs). Si tu es seul et veux créer un système à la Dragon NaturallySpeaking, tu as le choix entre des dizaines d'années de développement et l'utilisation de l'existant.

Comme expliqué par Wikipédia, tu as deux parties principales : du traitement de signal pour trouver des morceaux de son à analyser et les préparer pour l'étape suivante ; de l'apprentissage automatique sur les caractéristiques extraites à l'étape précédente (en ressortant le joli mot d'apprentissage profond, la première étape pourrait être franchement réduite). Un livre comme http://link.springer.com/book/10.100...-1-4471-5779-3 pourrait t'intéresser.

**Raynor74** · 16/08/2015, 11h06

Je suis effectivement seul mais je ais le faire, en effet ce livre pourrait être intéressant mais quel pourrai être la marche à suivre précise.

1-capturer le son
2-analyser sa fréquence et sa duré
3-le convertir en texte
4-analyser le texte
5-effectuer l'action du texte
6- on recommence tout

Mais il me faudrait aussi des cours d’algorithmes pour pouvoir effectuer ces commandes sur un ordinateur.

**dourouc05** · 16/08/2015, 11h44

Cette marche à suivre est très loin d'être précise

. Analyser la fréquence et la durée du signal n'apportera peut-être pas toute l'information nécessaire pour un apprentissage correct (surtout qu'il se fait avec un nombre de caractéristiques constant… donc a priori une durée constante dans les échantillons qui lui sont passés). Pour l'analyse de texte, il est plus courant d'avoir une liste d'actions limitée, qu'il "suffit" alors de reconnaître dans le texte entendu.

Tout ceci ne correspond pas vraiment à l'algorithmique au sens classique, plutôt à des domaines connexes. Commence d'abord par étudier les algorithmes de base (une liste pas à jour, même si le contenu reste valable : http://algo.developpez.com/cours/ ; https://mitpress.mit.edu/books/introduction-algorithms), ce qui te donnera les bases pour comprendre l'apprentissage automatique (http://statweb.stanford.edu/~tibs/ElemStatLearn/, http://aima.cs.berkeley.edu/ — ou alors tu te lances dans une bibliothèque comme scikit-learn, sans vraiment chercher à comprendre ce qui se passe). Sans oublier l'implémentation, d'ailleurs…

**BufferBob** · 16/08/2015, 13h27

Envoyé par Flodelarab

Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.

je suis assez d'accord c'est un vrai bon conseil, un conseil pratique

@Raynor74, je pense que tu peux te pencher sur (...) un peu tout pleins de notions mathématiques, mais aussi de la linguistique, de la phonétique, du traitement du signal, de l'analyse du langage naturel etc. t'es parti pour refaire "from scratch" et tout seul quelque chose qui a demandé des dizaines d'années de travail à des centaines de chercheurs experts dans leurs domaines respectifs (prévois peut-être aussi de la vitamine C on sait jamais)

si ce que tu attends c'est une démarche pas-à-pas sur comment créer une reconnaissance vocale je pense que ça n'existe simplement pas, le mieux serait peut-être de te lancer directement dans la bataille ? générer un ou plusieurs échantillons audio et essayer d'en tirer quelque chose programmatiquement parlant

**zaza576** · 19/08/2015, 11h41

Se baser sur l'existant est déjà une bonne chose.
Cela ne mange pas de pain de s'inspirer pour ensuite faire son propre projet.
Mais démarrer de rien, sans aucune connaissance au préalable est vraiment un chantier gigantesque.
Un développeur est efficace quand il n'invente pas à nouveau la roue.

Tu peux regarder du côté de CMU Sphinx (cmusphinx.sourceforge.net) pour démarrer la reconnaissance vocale.
Le projet n'est pas "si difficile" que cela à manipuler quand on lit correctement la doc.
Cela te permettra de comprendre les principes de base de ce domaine passionnant de l'informatique.

**DonQuiche** · 19/08/2015, 15h01

Envoyé par zaza576

Se baser sur l'existant est déjà une bonne chose.

SI le but est de concevoir un produit, certainement. Si le but est d'explorer le domaine de la programmation par passion, je recommande de réinventer la route.

Mais nous sommes d'accord sur le fait que mettre au point un système de reconnaissance vocale digne de ce nom est hors de portée d'un simple individu (sauf peut-être très talentueux, motivé, expérimenté, prêt à y consacrer des années de sa vie) et a fortiori d'un débutant. Non seulement du fait de la complexité mais aussi du fait du manque de bases de données publiques dignes de ce nom pour entraîner l'algorithme.

Cela dit, en vrac, pour donner un aperçu du problème :

* La voix est composée de voyelles (arrangement statique des harmoniques - une voyelle peut être maintenue) et de consonnes (variations dynamiques et transitoires des harmoniques - une consonne ne peut pas être maintenue). Il existe de nombreux types de voyelles phonétiques (eu, é, è sont trois voyelles par ex). Les fréquences correspondantes sont relatives et spécifiques à chaque être humain, rien de simple en la matière, et les bandes peuvent être plus ou moins larges. Il est difficile pour un être humain d'identifier des voyelles même très distinctes depuis une visualisation des harmoniques, c'est très subtil. La tâche implique presque toujours un réseau neural. Il me semble que les plus modernes créent une modélisation mathématique de l'appareil vocal d'un individu (cordes, gorge, bouche). Enfin une approche uniquement statique donne des résultat potables-bof.

* Une fois les phonèmes identifiées, on utilise généralement Viterbi et ses dérivés pour en déduire les mots correspondants. komanvatu correspond t-il à "comment vas-tu" ou bien à "comme en vatu" ? Une phonème peut représenter la liaison entre deux mots. La reconnaissance seule des mots ne suffit pas toujours, il faut parfois vérifier si la phrase est grammaticalement sensée pour éliminer des faux positifs. Et même cela ne suffit pas toujours, l'utilisation du sens commun est parfois indispensable. Ajoutons que le langage est rempli d'uttérances entre les mots (euh, euh, ah, hmmm, tousse, rit, soupire) qu'il faut éliminer. Et bien sûr ce sont des phonèmes ordinaires qui pourraient tout à fait faire partir d'un mot. Plus amusant encore, le micro de l'utilisateur est généralement naze, son environnement bruyant, d'autres personnes peuvent parler en fond, et l'utilisateur peut mêler plusieurs langues et utiliser plusieurs accents.

* Une fois les mots identifiés l'identification de la structure grammaticale est un jeu d'enfants en comparaison. On peut en effet se contenter d'une grammaire non-textuelle en trichant un peu, et utiliser ainsi des parsers "simples" comme Earley. Cela permet d'obtenir un arbre du type verbe(manger, sujet = pronom(je), objet = adjectif(jaune, objet = nom(chat)))

* Une fois la phrase reconstruite, reste à l'interpréter. Pas de miracle possible il faudra passer par la reconnaissance de motifs selon des règles prédéfinies. Par exemple la règle "ouvre (déterminant) (document)" où déterminant et document sont deux sous-règles. Par exemple document pourrait être "fichier (nom)". On identifiera alors le nom du fichier, que l'on localisera, avant de l'ouvrir.

* J'ai mentionné qu'en général un ordinateur de bureau n'avait pas assez de puissance pour faire des analyses suffisamment pointues ?

AHAHAHAHAHAHAHAHAHAH.

**zaza576** · 19/08/2015, 17h20

Je ne suis pas d'accord sur plusieurs points avec toi, DonQuiche.

Déjà, se baser sur l'existant pour concevoir un produit (commercialisable), ce n'est pas une bonne chose => cf problèmes des licences (on ne va pas y revenir, tout le monde connaît ce sujet).
Je parlais, et c'est le sujet de ce post d'ailleurs, d'étudier des solutions existantes, toujours au nom de la passion et de l'autoformation.

De plus, réinventer la roue, c'est totalement ridicule quand on est débutant.
Il y a certes les études informatiques / l'autoformation, pour apprendre à développer. Mais pour développer une application, rien de mieux que d'intégrer des API / librairies / modules / utiliser des framerworks existants.
Pourquoi ?
-> Apprentissage des bonnes normes / principes / best-practices qui se font sur le marché du dév informatique.
-> Apprendre tout en utilisant les bons outils et pas des rustines développées par soi-même.
-> Choix d'une solution adaptée
-> Simplicité et gain de temps (important dans la formation)
-> Compréhension du code existant et apprentissage à partir de celui-ci (principe des systèmes experts => partir de vérités pour apprendre bien et bien apprendre)

Le sujet traite de la reconnaissance vocale. Je vois mal un débutant attaquer directement à bras le corps ce sujet sans même regarder ce qui se fait sur le marché...
Mon argument est donc la vitesse d'apprentissage. Et pour cela, rien de mieux que de s'inspirer des meilleurs pour atteindre cet objectif pour soi.

Les entreprises et scientifiques qui ont parcouru ce chemin ont mis des années avant d'obtenir des outils améliorés mais perfectibles (Google Voice, Siri, CMU Sphinx, ...).
Il leur a fallu aussi entraîner leur moteur de reconnaissance sur la base de données faramineuses, chose qu'un simple PC ne peut réaliser en autant de tant (manque de RAM et CPU et capacité de stockage).