Algorithmes de reconnaissance vocale

**Raynor74** · 15/08/2015, 17h30

Bonjours,
je voudrai, programmer une reconnaissances vocales servant à la domotique et pour ça j'ai besoin d'un moteur de reconnaissance vocale. Et pour cela il me faut un algorithmes qui doit le faire mais j'aimerai que vous me dites tout ce qu'il faudrait qu'il fasse(même si j'ai déjà ma petite idée) et que vous m'orienter vers des cour de mathématiques informatique pour que je puisse êtres capable de monter cet algorithmes.

Merci de vos réponse

**Flodelarab** · 16/08/2015, 01h49

Bonjour

Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.

**Raynor74** · 16/08/2015, 09h54

Pourquoi me dire de laisser tomber, si on abandonne sans essayer on ne pourra jamais rien faire. Tout ce qui a été créé aujourd’hui résulte de plusieurs essais pour y arriver. donc je souhaite que les gens qui me répondent, répondent à mes questions ou essayent de m'apporter l'aide dont j'ai besoin et pas de me dire qu'il faut que j'abandonne sans avoir essayé.

Merci

**dourouc05** · 16/08/2015, 10h44

La question est plutôt de savoir les ressources que tu as à ta disposition (et tes objectifs). Si tu es seul et veux créer un système à la Dragon NaturallySpeaking, tu as le choix entre des dizaines d'années de développement et l'utilisation de l'existant.

Comme expliqué par Wikipédia, tu as deux parties principales : du traitement de signal pour trouver des morceaux de son à analyser et les préparer pour l'étape suivante ; de l'apprentissage automatique sur les caractéristiques extraites à l'étape précédente (en ressortant le joli mot d'apprentissage profond, la première étape pourrait être franchement réduite). Un livre comme http://link.springer.com/book/10.100...-1-4471-5779-3 pourrait t'intéresser.

**Raynor74** · 16/08/2015, 11h06

Je suis effectivement seul mais je ais le faire, en effet ce livre pourrait être intéressant mais quel pourrai être la marche à suivre précise.

1-capturer le son
2-analyser sa fréquence et sa duré
3-le convertir en texte
4-analyser le texte
5-effectuer l'action du texte
6- on recommence tout

Mais il me faudrait aussi des cours d’algorithmes pour pouvoir effectuer ces commandes sur un ordinateur.

**dourouc05** · 16/08/2015, 11h44

Cette marche à suivre est très loin d'être précise

. Analyser la fréquence et la durée du signal n'apportera peut-être pas toute l'information nécessaire pour un apprentissage correct (surtout qu'il se fait avec un nombre de caractéristiques constant… donc a priori une durée constante dans les échantillons qui lui sont passés). Pour l'analyse de texte, il est plus courant d'avoir une liste d'actions limitée, qu'il "suffit" alors de reconnaître dans le texte entendu.

Tout ceci ne correspond pas vraiment à l'algorithmique au sens classique, plutôt à des domaines connexes. Commence d'abord par étudier les algorithmes de base (une liste pas à jour, même si le contenu reste valable : http://algo.developpez.com/cours/ ; https://mitpress.mit.edu/books/introduction-algorithms), ce qui te donnera les bases pour comprendre l'apprentissage automatique (http://statweb.stanford.edu/~tibs/ElemStatLearn/, http://aima.cs.berkeley.edu/ — ou alors tu te lances dans une bibliothèque comme scikit-learn, sans vraiment chercher à comprendre ce qui se passe). Sans oublier l'implémentation, d'ailleurs…

**BufferBob** · 16/08/2015, 13h27

Envoyé par Flodelarab

Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.

je suis assez d'accord c'est un vrai bon conseil, un conseil pratique

@Raynor74, je pense que tu peux te pencher sur (...) un peu tout pleins de notions mathématiques, mais aussi de la linguistique, de la phonétique, du traitement du signal, de l'analyse du langage naturel etc. t'es parti pour refaire "from scratch" et tout seul quelque chose qui a demandé des dizaines d'années de travail à des centaines de chercheurs experts dans leurs domaines respectifs (prévois peut-être aussi de la vitamine C on sait jamais)

si ce que tu attends c'est une démarche pas-à-pas sur comment créer une reconnaissance vocale je pense que ça n'existe simplement pas, le mieux serait peut-être de te lancer directement dans la bataille ? générer un ou plusieurs échantillons audio et essayer d'en tirer quelque chose programmatiquement parlant

**zaza576** · 19/08/2015, 11h41

Se baser sur l'existant est déjà une bonne chose.
Cela ne mange pas de pain de s'inspirer pour ensuite faire son propre projet.
Mais démarrer de rien, sans aucune connaissance au préalable est vraiment un chantier gigantesque.
Un développeur est efficace quand il n'invente pas à nouveau la roue.

Tu peux regarder du côté de CMU Sphinx (cmusphinx.sourceforge.net) pour démarrer la reconnaissance vocale.
Le projet n'est pas "si difficile" que cela à manipuler quand on lit correctement la doc.
Cela te permettra de comprendre les principes de base de ce domaine passionnant de l'informatique.

**DonQuiche** · 19/08/2015, 15h01

Envoyé par zaza576

Se baser sur l'existant est déjà une bonne chose.

SI le but est de concevoir un produit, certainement. Si le but est d'explorer le domaine de la programmation par passion, je recommande de réinventer la route.

Mais nous sommes d'accord sur le fait que mettre au point un système de reconnaissance vocale digne de ce nom est hors de portée d'un simple individu (sauf peut-être très talentueux, motivé, expérimenté, prêt à y consacrer des années de sa vie) et a fortiori d'un débutant. Non seulement du fait de la complexité mais aussi du fait du manque de bases de données publiques dignes de ce nom pour entraîner l'algorithme.

Cela dit, en vrac, pour donner un aperçu du problème :

* La voix est composée de voyelles (arrangement statique des harmoniques - une voyelle peut être maintenue) et de consonnes (variations dynamiques et transitoires des harmoniques - une consonne ne peut pas être maintenue). Il existe de nombreux types de voyelles phonétiques (eu, é, è sont trois voyelles par ex). Les fréquences correspondantes sont relatives et spécifiques à chaque être humain, rien de simple en la matière, et les bandes peuvent être plus ou moins larges. Il est difficile pour un être humain d'identifier des voyelles même très distinctes depuis une visualisation des harmoniques, c'est très subtil. La tâche implique presque toujours un réseau neural. Il me semble que les plus modernes créent une modélisation mathématique de l'appareil vocal d'un individu (cordes, gorge, bouche). Enfin une approche uniquement statique donne des résultat potables-bof.

* Une fois les phonèmes identifiées, on utilise généralement Viterbi et ses dérivés pour en déduire les mots correspondants. komanvatu correspond t-il à "comment vas-tu" ou bien à "comme en vatu" ? Une phonème peut représenter la liaison entre deux mots. La reconnaissance seule des mots ne suffit pas toujours, il faut parfois vérifier si la phrase est grammaticalement sensée pour éliminer des faux positifs. Et même cela ne suffit pas toujours, l'utilisation du sens commun est parfois indispensable. Ajoutons que le langage est rempli d'uttérances entre les mots (euh, euh, ah, hmmm, tousse, rit, soupire) qu'il faut éliminer. Et bien sûr ce sont des phonèmes ordinaires qui pourraient tout à fait faire partir d'un mot. Plus amusant encore, le micro de l'utilisateur est généralement naze, son environnement bruyant, d'autres personnes peuvent parler en fond, et l'utilisateur peut mêler plusieurs langues et utiliser plusieurs accents.

* Une fois les mots identifiés l'identification de la structure grammaticale est un jeu d'enfants en comparaison. On peut en effet se contenter d'une grammaire non-textuelle en trichant un peu, et utiliser ainsi des parsers "simples" comme Earley. Cela permet d'obtenir un arbre du type verbe(manger, sujet = pronom(je), objet = adjectif(jaune, objet = nom(chat)))

* Une fois la phrase reconstruite, reste à l'interpréter. Pas de miracle possible il faudra passer par la reconnaissance de motifs selon des règles prédéfinies. Par exemple la règle "ouvre (déterminant) (document)" où déterminant et document sont deux sous-règles. Par exemple document pourrait être "fichier (nom)". On identifiera alors le nom du fichier, que l'on localisera, avant de l'ouvrir.

* J'ai mentionné qu'en général un ordinateur de bureau n'avait pas assez de puissance pour faire des analyses suffisamment pointues ?

AHAHAHAHAHAHAHAHAHAH.

**zaza576** · 19/08/2015, 17h20

Je ne suis pas d'accord sur plusieurs points avec toi, DonQuiche.

Déjà, se baser sur l'existant pour concevoir un produit (commercialisable), ce n'est pas une bonne chose => cf problèmes des licences (on ne va pas y revenir, tout le monde connaît ce sujet).
Je parlais, et c'est le sujet de ce post d'ailleurs, d'étudier des solutions existantes, toujours au nom de la passion et de l'autoformation.

De plus, réinventer la roue, c'est totalement ridicule quand on est débutant.
Il y a certes les études informatiques / l'autoformation, pour apprendre à développer. Mais pour développer une application, rien de mieux que d'intégrer des API / librairies / modules / utiliser des framerworks existants.
Pourquoi ?
-> Apprentissage des bonnes normes / principes / best-practices qui se font sur le marché du dév informatique.
-> Apprendre tout en utilisant les bons outils et pas des rustines développées par soi-même.
-> Choix d'une solution adaptée
-> Simplicité et gain de temps (important dans la formation)
-> Compréhension du code existant et apprentissage à partir de celui-ci (principe des systèmes experts => partir de vérités pour apprendre bien et bien apprendre)

Le sujet traite de la reconnaissance vocale. Je vois mal un débutant attaquer directement à bras le corps ce sujet sans même regarder ce qui se fait sur le marché...
Mon argument est donc la vitesse d'apprentissage. Et pour cela, rien de mieux que de s'inspirer des meilleurs pour atteindre cet objectif pour soi.

Les entreprises et scientifiques qui ont parcouru ce chemin ont mis des années avant d'obtenir des outils améliorés mais perfectibles (Google Voice, Siri, CMU Sphinx, ...).
Il leur a fallu aussi entraîner leur moteur de reconnaissance sur la base de données faramineuses, chose qu'un simple PC ne peut réaliser en autant de tant (manque de RAM et CPU et capacité de stockage).

**BufferBob** · 19/08/2015, 17h28

Envoyé par DonQuiche

verbe(manger, sujet = pronom(je), objet = adjectif(jaune, objet = nom(chat)))

excellent épluchage de la problématique par ailleurs

**souviron34** · 19/08/2015, 19h33

On peut ajouter à la bonne description de DonQuiche l'établissement de la base de données..

Car, déjà que la phase "passer d'une suite de phonèmes à des mots" est compliquée, mais celle de la reconnaissance des phonèmes en eux-mêmes est prodigieusement compliquée, à cause des accents, vitesses, etc.. des gens qui prononcent..

Les boîtes du marche ont en général des bases de plusieurs centaines de milliers de participants de toutes origines prononçant des dizaines de phrases différentes.. (par exemple Nuance).

Même pour des applications spécialisées avec des phrases-types (par exemple les dialogues entre un pilote d'avion et une tour de contrôle) la collecte initiale est gigantesque..

Alors, même pour les petits menus, c'est compliqué, mais en agissant avec 2 ou 3 possibilités seulement de mots (les répondeurs "vocaux" avec les menus vocaux), on est quand même limité à ce qu on peut proposer (les appelants se fatiguent vite d'écouter une infinité de menus)..

Quant à la reconnaissance de phrases "libres", on en est encore loin...

Mais cela peut être un bon exercice.. Au moins pour se rendre compte de la complexité impliquée..

**ToTo13** · 19/08/2015, 20h47

Les algorithmes de reconnaissance vocale utilisent principalement plusieurs gigantesques Deep Neural Network, entrainés sur d'encore plus grandes bases de données.
Donc si tu souhaites tout refaire par toi même :

il te faut reconstituer une base de données ==> honnêtement ce n'est pas une bonne idée du tout. Prends en une existante.
développer un DNN ==> il y en a plein de disponibles en ligne (voir Torch et cuDNN). C'est un exercice intéressant, mais extrêmement long si tu veux développer toutes les variantes utiles. Et tu as intérêt à être TRES bon en math si tu veux comprendre ce que tu fais.
trouver les bonnes architectures de tes DNNs ==> ce qui nécessite un très grand nombre de configurations à tester. Or... voir point suivant...
entrainer chacun des DNNs testés, ce qui peut prendre plusieurs mois pour chaque si tu ne disposes pas d'un cluster avec des GPUs.

Si tu as un TRES long moment devant toi, tu peux essayer.
Si tu n'as pas la puissance machine requise (voir le point 4), c'est déjà foutu car impossible de faire l'apprentissage sur un ordinateur personnel, à moins de le faire tourner pendant plusieurs années.

En conclusion : si tu es vraiment passionné, que tu souhaites profondément apprendre, que tu as les ressources disponibles et le temps libre nécessaire, fais le. Sinon, il te faudra récupérer quelque chose existant.

**myriana25** · 08/08/2018, 14h35

Bonjour à tous,

Je souhaiterais me lancer dans cette voie, j'aimerai programmer un réseau de neurone pour reconnaître des sons sauf que j'ai pas trop de temps. Quel est le moyen le plus simple qui permet de le faire svp?
Avez-vous un tuto à me proposer pour un dataset disponible?

@ToTo13 que voulez-vous dire par quelque chose d'existant svp? un exemple?

Merci à l'avance de vos réponses.

Cordialement,

Algorithmes de reconnaissance vocale

Algorithmes et structures de données

Discussions similaires

Partager

Partager