IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Algorithmes de reconnaissance vocale


Sujet :

Algorithmes et structures de données

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Lycéen
    Inscrit en
    Août 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Lycéen
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2015
    Messages : 4
    Points : 0
    Points
    0
    Par défaut Algorithmes de reconnaissance vocale
    Bonjours,
    je voudrai, programmer une reconnaissances vocales servant à la domotique et pour ça j'ai besoin d'un moteur de reconnaissance vocale. Et pour cela il me faut un algorithmes qui doit le faire mais j'aimerai que vous me dites tout ce qu'il faudrait qu'il fasse(même si j'ai déjà ma petite idée) et que vous m'orienter vers des cour de mathématiques informatique pour que je puisse êtres capable de monter cet algorithmes.

    Merci de vos réponse

  2. #2
    Expert éminent sénior Avatar de Flodelarab
    Homme Profil pro
    Inscrit en
    Septembre 2005
    Messages
    5 242
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente (Poitou Charente)

    Informations forums :
    Inscription : Septembre 2005
    Messages : 5 242
    Points : 13 457
    Points
    13 457
    Par défaut
    Bonjour

    Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.
    Cette réponse vous apporte quelque chose ? Cliquez sur en bas à droite du message.

  3. #3
    Nouveau Candidat au Club
    Homme Profil pro
    Lycéen
    Inscrit en
    Août 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Lycéen
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2015
    Messages : 4
    Points : 0
    Points
    0
    Par défaut
    Pourquoi me dire de laisser tomber, si on abandonne sans essayer on ne pourra jamais rien faire. Tout ce qui a été créé aujourd’hui résulte de plusieurs essais pour y arriver. donc je souhaite que les gens qui me répondent, répondent à mes questions ou essayent de m'apporter l'aide dont j'ai besoin et pas de me dire qu'il faut que j'abandonne sans avoir essayé.

    Merci

  4. #4
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Août 2008
    Messages
    26 618
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2008
    Messages : 26 618
    Points : 188 585
    Points
    188 585
    Par défaut
    La question est plutôt de savoir les ressources que tu as à ta disposition (et tes objectifs). Si tu es seul et veux créer un système à la Dragon NaturallySpeaking, tu as le choix entre des dizaines d'années de développement et l'utilisation de l'existant.

    Comme expliqué par Wikipédia, tu as deux parties principales : du traitement de signal pour trouver des morceaux de son à analyser et les préparer pour l'étape suivante ; de l'apprentissage automatique sur les caractéristiques extraites à l'étape précédente (en ressortant le joli mot d'apprentissage profond, la première étape pourrait être franchement réduite). Un livre comme http://link.springer.com/book/10.100...-1-4471-5779-3 pourrait t'intéresser.
    Vous souhaitez participer aux rubriques Qt (tutoriels, FAQ, traductions) ou HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

  5. #5
    Nouveau Candidat au Club
    Homme Profil pro
    Lycéen
    Inscrit en
    Août 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Lycéen
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2015
    Messages : 4
    Points : 0
    Points
    0
    Par défaut
    Je suis effectivement seul mais je ais le faire, en effet ce livre pourrait être intéressant mais quel pourrai être la marche à suivre précise.

    1-capturer le son
    2-analyser sa fréquence et sa duré
    3-le convertir en texte
    4-analyser le texte
    5-effectuer l'action du texte
    6- on recommence tout

    Mais il me faudrait aussi des cours d’algorithmes pour pouvoir effectuer ces commandes sur un ordinateur.

  6. #6
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Août 2008
    Messages
    26 618
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2008
    Messages : 26 618
    Points : 188 585
    Points
    188 585
    Par défaut
    Cette marche à suivre est très loin d'être précise . Analyser la fréquence et la durée du signal n'apportera peut-être pas toute l'information nécessaire pour un apprentissage correct (surtout qu'il se fait avec un nombre de caractéristiques constant… donc a priori une durée constante dans les échantillons qui lui sont passés). Pour l'analyse de texte, il est plus courant d'avoir une liste d'actions limitée, qu'il "suffit" alors de reconnaître dans le texte entendu.

    Tout ceci ne correspond pas vraiment à l'algorithmique au sens classique, plutôt à des domaines connexes. Commence d'abord par étudier les algorithmes de base (une liste pas à jour, même si le contenu reste valable : http://algo.developpez.com/cours/ ; https://mitpress.mit.edu/books/introduction-algorithms), ce qui te donnera les bases pour comprendre l'apprentissage automatique (http://statweb.stanford.edu/~tibs/ElemStatLearn/, http://aima.cs.berkeley.edu/ — ou alors tu te lances dans une bibliothèque comme scikit-learn, sans vraiment chercher à comprendre ce qui se passe). Sans oublier l'implémentation, d'ailleurs…
    Vous souhaitez participer aux rubriques Qt (tutoriels, FAQ, traductions) ou HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

  7. #7
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    Citation Envoyé par Flodelarab Voir le message
    Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.
    je suis assez d'accord c'est un vrai bon conseil, un conseil pratique

    @Raynor74, je pense que tu peux te pencher sur (...) un peu tout pleins de notions mathématiques, mais aussi de la linguistique, de la phonétique, du traitement du signal, de l'analyse du langage naturel etc. t'es parti pour refaire "from scratch" et tout seul quelque chose qui a demandé des dizaines d'années de travail à des centaines de chercheurs experts dans leurs domaines respectifs (prévois peut-être aussi de la vitamine C on sait jamais)

    si ce que tu attends c'est une démarche pas-à-pas sur comment créer une reconnaissance vocale je pense que ça n'existe simplement pas, le mieux serait peut-être de te lancer directement dans la bataille ? générer un ou plusieurs échantillons audio et essayer d'en tirer quelque chose programmatiquement parlant

  8. #8
    Membre actif Avatar de zaza576
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2013
    Messages
    175
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Août 2013
    Messages : 175
    Points : 275
    Points
    275
    Par défaut
    Se baser sur l'existant est déjà une bonne chose.
    Cela ne mange pas de pain de s'inspirer pour ensuite faire son propre projet.
    Mais démarrer de rien, sans aucune connaissance au préalable est vraiment un chantier gigantesque.
    Un développeur est efficace quand il n'invente pas à nouveau la roue.

    Tu peux regarder du côté de CMU Sphinx (cmusphinx.sourceforge.net) pour démarrer la reconnaissance vocale.
    Le projet n'est pas "si difficile" que cela à manipuler quand on lit correctement la doc.
    Cela te permettra de comprendre les principes de base de ce domaine passionnant de l'informatique.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    function googleIsYourF*ck*ngFriend(String url, String maQuestion){
        goTo(url);
        reponse = find(maQuestion);
        if(isAcceptable(reponse)){
            clickOn(By.xpath("//button[@id='resolvedButton']"));
        }
        sendMessage("Merci");
    }
    
    googleIsYourF*ck*ingFriend("http://www.google.fr", "ma question");

  9. #9
    Expert confirmé Avatar de DonQuiche
    Inscrit en
    Septembre 2010
    Messages
    2 741
    Détails du profil
    Informations forums :
    Inscription : Septembre 2010
    Messages : 2 741
    Points : 5 485
    Points
    5 485
    Par défaut
    Citation Envoyé par zaza576 Voir le message
    Se baser sur l'existant est déjà une bonne chose.
    SI le but est de concevoir un produit, certainement. Si le but est d'explorer le domaine de la programmation par passion, je recommande de réinventer la route.

    Mais nous sommes d'accord sur le fait que mettre au point un système de reconnaissance vocale digne de ce nom est hors de portée d'un simple individu (sauf peut-être très talentueux, motivé, expérimenté, prêt à y consacrer des années de sa vie) et a fortiori d'un débutant. Non seulement du fait de la complexité mais aussi du fait du manque de bases de données publiques dignes de ce nom pour entraîner l'algorithme.


    Cela dit, en vrac, pour donner un aperçu du problème :

    * La voix est composée de voyelles (arrangement statique des harmoniques - une voyelle peut être maintenue) et de consonnes (variations dynamiques et transitoires des harmoniques - une consonne ne peut pas être maintenue). Il existe de nombreux types de voyelles phonétiques (eu, é, è sont trois voyelles par ex). Les fréquences correspondantes sont relatives et spécifiques à chaque être humain, rien de simple en la matière, et les bandes peuvent être plus ou moins larges. Il est difficile pour un être humain d'identifier des voyelles même très distinctes depuis une visualisation des harmoniques, c'est très subtil. La tâche implique presque toujours un réseau neural. Il me semble que les plus modernes créent une modélisation mathématique de l'appareil vocal d'un individu (cordes, gorge, bouche). Enfin une approche uniquement statique donne des résultat potables-bof.

    * Une fois les phonèmes identifiées, on utilise généralement Viterbi et ses dérivés pour en déduire les mots correspondants. komanvatu correspond t-il à "comment vas-tu" ou bien à "comme en vatu" ? Une phonème peut représenter la liaison entre deux mots. La reconnaissance seule des mots ne suffit pas toujours, il faut parfois vérifier si la phrase est grammaticalement sensée pour éliminer des faux positifs. Et même cela ne suffit pas toujours, l'utilisation du sens commun est parfois indispensable. Ajoutons que le langage est rempli d'uttérances entre les mots (euh, euh, ah, hmmm, tousse, rit, soupire) qu'il faut éliminer. Et bien sûr ce sont des phonèmes ordinaires qui pourraient tout à fait faire partir d'un mot. Plus amusant encore, le micro de l'utilisateur est généralement naze, son environnement bruyant, d'autres personnes peuvent parler en fond, et l'utilisateur peut mêler plusieurs langues et utiliser plusieurs accents.

    * Une fois les mots identifiés l'identification de la structure grammaticale est un jeu d'enfants en comparaison. On peut en effet se contenter d'une grammaire non-textuelle en trichant un peu, et utiliser ainsi des parsers "simples" comme Earley. Cela permet d'obtenir un arbre du type verbe(manger, sujet = pronom(je), objet = adjectif(jaune, objet = nom(chat)))

    * Une fois la phrase reconstruite, reste à l'interpréter. Pas de miracle possible il faudra passer par la reconnaissance de motifs selon des règles prédéfinies. Par exemple la règle "ouvre (déterminant) (document)" où déterminant et document sont deux sous-règles. Par exemple document pourrait être "fichier (nom)". On identifiera alors le nom du fichier, que l'on localisera, avant de l'ouvrir.

    * J'ai mentionné qu'en général un ordinateur de bureau n'avait pas assez de puissance pour faire des analyses suffisamment pointues ?

    AHAHAHAHAHAHAHAHAHAH.

  10. #10
    Membre actif Avatar de zaza576
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2013
    Messages
    175
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Août 2013
    Messages : 175
    Points : 275
    Points
    275
    Par défaut
    Je ne suis pas d'accord sur plusieurs points avec toi, DonQuiche.

    Déjà, se baser sur l'existant pour concevoir un produit (commercialisable), ce n'est pas une bonne chose => cf problèmes des licences (on ne va pas y revenir, tout le monde connaît ce sujet).
    Je parlais, et c'est le sujet de ce post d'ailleurs, d'étudier des solutions existantes, toujours au nom de la passion et de l'autoformation.

    De plus, réinventer la roue, c'est totalement ridicule quand on est débutant.
    Il y a certes les études informatiques / l'autoformation, pour apprendre à développer. Mais pour développer une application, rien de mieux que d'intégrer des API / librairies / modules / utiliser des framerworks existants.
    Pourquoi ?
    -> Apprentissage des bonnes normes / principes / best-practices qui se font sur le marché du dév informatique.
    -> Apprendre tout en utilisant les bons outils et pas des rustines développées par soi-même.
    -> Choix d'une solution adaptée
    -> Simplicité et gain de temps (important dans la formation)
    -> Compréhension du code existant et apprentissage à partir de celui-ci (principe des systèmes experts => partir de vérités pour apprendre bien et bien apprendre)

    Le sujet traite de la reconnaissance vocale. Je vois mal un débutant attaquer directement à bras le corps ce sujet sans même regarder ce qui se fait sur le marché...
    Mon argument est donc la vitesse d'apprentissage. Et pour cela, rien de mieux que de s'inspirer des meilleurs pour atteindre cet objectif pour soi.

    Les entreprises et scientifiques qui ont parcouru ce chemin ont mis des années avant d'obtenir des outils améliorés mais perfectibles (Google Voice, Siri, CMU Sphinx, ...).
    Il leur a fallu aussi entraîner leur moteur de reconnaissance sur la base de données faramineuses, chose qu'un simple PC ne peut réaliser en autant de tant (manque de RAM et CPU et capacité de stockage).
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    function googleIsYourF*ck*ngFriend(String url, String maQuestion){
        goTo(url);
        reponse = find(maQuestion);
        if(isAcceptable(reponse)){
            clickOn(By.xpath("//button[@id='resolvedButton']"));
        }
        sendMessage("Merci");
    }
    
    googleIsYourF*ck*ingFriend("http://www.google.fr", "ma question");

  11. #11
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    Citation Envoyé par DonQuiche Voir le message
    verbe(manger, sujet = pronom(je), objet = adjectif(jaune, objet = nom(chat)))

    excellent épluchage de la problématique par ailleurs

  12. #12
    Expert éminent sénior

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    10 603
    Détails du profil
    Informations personnelles :
    Âge : 66
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 10 603
    Points : 17 913
    Points
    17 913
    Billets dans le blog
    2
    Par défaut
    On peut ajouter à la bonne description de DonQuiche l'établissement de la base de données..

    Car, déjà que la phase "passer d'une suite de phonèmes à des mots" est compliquée, mais celle de la reconnaissance des phonèmes en eux-mêmes est prodigieusement compliquée, à cause des accents, vitesses, etc.. des gens qui prononcent..

    Les boîtes du marche ont en général des bases de plusieurs centaines de milliers de participants de toutes origines prononçant des dizaines de phrases différentes.. (par exemple Nuance).

    Même pour des applications spécialisées avec des phrases-types (par exemple les dialogues entre un pilote d'avion et une tour de contrôle) la collecte initiale est gigantesque..

    Alors, même pour les petits menus, c'est compliqué, mais en agissant avec 2 ou 3 possibilités seulement de mots (les répondeurs "vocaux" avec les menus vocaux), on est quand même limité à ce qu on peut proposer (les appelants se fatiguent vite d'écouter une infinité de menus)..

    Quant à la reconnaissance de phrases "libres", on en est encore loin...

    Mais cela peut être un bon exercice.. Au moins pour se rendre compte de la complexité impliquée..
    "Un homme sage ne croit que la moitié de ce qu’il lit. Plus sage encore, il sait laquelle".

    Consultant indépendant.
    Architecture systèmes complexes. Programmation grosses applications critiques. Ergonomie.
    C, Fortran, XWindow/Motif, Java

    Je ne réponds pas aux MP techniques

  13. #13
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Les algorithmes de reconnaissance vocale utilisent principalement plusieurs gigantesques Deep Neural Network, entrainés sur d'encore plus grandes bases de données.
    Donc si tu souhaites tout refaire par toi même :
    1. il te faut reconstituer une base de données ==> honnêtement ce n'est pas une bonne idée du tout. Prends en une existante.
    2. développer un DNN ==> il y en a plein de disponibles en ligne (voir Torch et cuDNN). C'est un exercice intéressant, mais extrêmement long si tu veux développer toutes les variantes utiles. Et tu as intérêt à être TRES bon en math si tu veux comprendre ce que tu fais.
    3. trouver les bonnes architectures de tes DNNs ==> ce qui nécessite un très grand nombre de configurations à tester. Or... voir point suivant...
    4. entrainer chacun des DNNs testés, ce qui peut prendre plusieurs mois pour chaque si tu ne disposes pas d'un cluster avec des GPUs.

    Si tu as un TRES long moment devant toi, tu peux essayer.
    Si tu n'as pas la puissance machine requise (voir le point 4), c'est déjà foutu car impossible de faire l'apprentissage sur un ordinateur personnel, à moins de le faire tourner pendant plusieurs années.

    En conclusion : si tu es vraiment passionné, que tu souhaites profondément apprendre, que tu as les ressources disponibles et le temps libre nécessaire, fais le. Sinon, il te faudra récupérer quelque chose existant.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  14. #14
    Nouveau Candidat au Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Août 2018
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 27
    Localisation : France, Val d'Oise (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Industrie

    Informations forums :
    Inscription : Août 2018
    Messages : 1
    Points : 1
    Points
    1
    Par défaut
    Bonjour à tous,

    Je souhaiterais me lancer dans cette voie, j'aimerai programmer un réseau de neurone pour reconnaître des sons sauf que j'ai pas trop de temps. Quel est le moyen le plus simple qui permet de le faire svp?
    Avez-vous un tuto à me proposer pour un dataset disponible?

    @ToTo13 que voulez-vous dire par quelque chose d'existant svp? un exemple?

    Merci à l'avance de vos réponses.

    Cordialement,

Discussions similaires

  1. Reconnaissance vocale et algorithme de Viterbi
    Par manouch8 dans le forum Algorithmes et structures de données
    Réponses: 2
    Dernier message: 01/01/2015, 18h24
  2. Recherche de moteurs de reconnaissance vocale
    Par Raylemon dans le forum Composants VCL
    Réponses: 1
    Dernier message: 17/08/2005, 17h00
  3. [C#] [WinForms] Reconnaissance vocale ?
    Par vandeyy dans le forum Windows Forms
    Réponses: 3
    Dernier message: 29/11/2004, 14h30
  4. Réponses: 8
    Dernier message: 05/10/2004, 00h02
  5. Logiciel professionnel de reconnaissance vocale
    Par samyl dans le forum Applications et environnements graphiques
    Réponses: 2
    Dernier message: 01/04/2004, 14h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo