IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Algorithmes de reconnaissance vocale


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre à l'essai
    Homme Profil pro
    Lycéen
    Inscrit en
    Août 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Lycéen
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2015
    Messages : 4
    Par défaut Algorithmes de reconnaissance vocale
    Bonjours,
    je voudrai, programmer une reconnaissances vocales servant à la domotique et pour ça j'ai besoin d'un moteur de reconnaissance vocale. Et pour cela il me faut un algorithmes qui doit le faire mais j'aimerai que vous me dites tout ce qu'il faudrait qu'il fasse(même si j'ai déjà ma petite idée) et que vous m'orienter vers des cour de mathématiques informatique pour que je puisse êtres capable de monter cet algorithmes.

    Merci de vos réponse

  2. #2
    Expert confirmé Avatar de Flodelarab
    Homme Profil pro
    Inscrit en
    Septembre 2005
    Messages
    5 288
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente (Poitou Charente)

    Informations forums :
    Inscription : Septembre 2005
    Messages : 5 288
    Par défaut
    Bonjour

    Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.

  3. #3
    Membre à l'essai
    Homme Profil pro
    Lycéen
    Inscrit en
    Août 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Lycéen
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2015
    Messages : 4
    Par défaut
    Pourquoi me dire de laisser tomber, si on abandonne sans essayer on ne pourra jamais rien faire. Tout ce qui a été créé aujourd’hui résulte de plusieurs essais pour y arriver. donc je souhaite que les gens qui me répondent, répondent à mes questions ou essayent de m'apporter l'aide dont j'ai besoin et pas de me dire qu'il faut que j'abandonne sans avoir essayé.

    Merci

  4. #4
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Août 2008
    Messages
    26 772
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Août 2008
    Messages : 26 772
    Par défaut
    La question est plutôt de savoir les ressources que tu as à ta disposition (et tes objectifs). Si tu es seul et veux créer un système à la Dragon NaturallySpeaking, tu as le choix entre des dizaines d'années de développement et l'utilisation de l'existant.

    Comme expliqué par Wikipédia, tu as deux parties principales : du traitement de signal pour trouver des morceaux de son à analyser et les préparer pour l'étape suivante ; de l'apprentissage automatique sur les caractéristiques extraites à l'étape précédente (en ressortant le joli mot d'apprentissage profond, la première étape pourrait être franchement réduite). Un livre comme http://link.springer.com/book/10.100...-1-4471-5779-3 pourrait t'intéresser.
    Vous souhaitez participer aux rubriques Qt (tutoriels, FAQ, traductions) ou HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

  5. #5
    Membre à l'essai
    Homme Profil pro
    Lycéen
    Inscrit en
    Août 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Lycéen
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2015
    Messages : 4
    Par défaut
    Je suis effectivement seul mais je ais le faire, en effet ce livre pourrait être intéressant mais quel pourrai être la marche à suivre précise.

    1-capturer le son
    2-analyser sa fréquence et sa duré
    3-le convertir en texte
    4-analyser le texte
    5-effectuer l'action du texte
    6- on recommence tout

    Mais il me faudrait aussi des cours d’algorithmes pour pouvoir effectuer ces commandes sur un ordinateur.

  6. #6
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Août 2008
    Messages
    26 772
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Août 2008
    Messages : 26 772
    Par défaut
    Cette marche à suivre est très loin d'être précise . Analyser la fréquence et la durée du signal n'apportera peut-être pas toute l'information nécessaire pour un apprentissage correct (surtout qu'il se fait avec un nombre de caractéristiques constant… donc a priori une durée constante dans les échantillons qui lui sont passés). Pour l'analyse de texte, il est plus courant d'avoir une liste d'actions limitée, qu'il "suffit" alors de reconnaître dans le texte entendu.

    Tout ceci ne correspond pas vraiment à l'algorithmique au sens classique, plutôt à des domaines connexes. Commence d'abord par étudier les algorithmes de base (une liste pas à jour, même si le contenu reste valable : http://algo.developpez.com/cours/ ; https://mitpress.mit.edu/books/introduction-algorithms), ce qui te donnera les bases pour comprendre l'apprentissage automatique (http://statweb.stanford.edu/~tibs/ElemStatLearn/, http://aima.cs.berkeley.edu/ — ou alors tu te lances dans une bibliothèque comme scikit-learn, sans vraiment chercher à comprendre ce qui se passe). Sans oublier l'implémentation, d'ailleurs…
    Vous souhaitez participer aux rubriques Qt (tutoriels, FAQ, traductions) ou HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

  7. #7
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    Citation Envoyé par Flodelarab Voir le message
    Laisse tomber les algorithmes. Le conseil est de prendre des modules déjà programmés.
    je suis assez d'accord c'est un vrai bon conseil, un conseil pratique

    @Raynor74, je pense que tu peux te pencher sur (...) un peu tout pleins de notions mathématiques, mais aussi de la linguistique, de la phonétique, du traitement du signal, de l'analyse du langage naturel etc. t'es parti pour refaire "from scratch" et tout seul quelque chose qui a demandé des dizaines d'années de travail à des centaines de chercheurs experts dans leurs domaines respectifs (prévois peut-être aussi de la vitamine C on sait jamais)

    si ce que tu attends c'est une démarche pas-à-pas sur comment créer une reconnaissance vocale je pense que ça n'existe simplement pas, le mieux serait peut-être de te lancer directement dans la bataille ? générer un ou plusieurs échantillons audio et essayer d'en tirer quelque chose programmatiquement parlant

  8. #8
    Membre très actif Avatar de zaza576
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2013
    Messages
    175
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Août 2013
    Messages : 175
    Par défaut
    Se baser sur l'existant est déjà une bonne chose.
    Cela ne mange pas de pain de s'inspirer pour ensuite faire son propre projet.
    Mais démarrer de rien, sans aucune connaissance au préalable est vraiment un chantier gigantesque.
    Un développeur est efficace quand il n'invente pas à nouveau la roue.

    Tu peux regarder du côté de CMU Sphinx (cmusphinx.sourceforge.net) pour démarrer la reconnaissance vocale.
    Le projet n'est pas "si difficile" que cela à manipuler quand on lit correctement la doc.
    Cela te permettra de comprendre les principes de base de ce domaine passionnant de l'informatique.

  9. #9
    Membre Expert Avatar de DonQuiche
    Inscrit en
    Septembre 2010
    Messages
    2 741
    Détails du profil
    Informations forums :
    Inscription : Septembre 2010
    Messages : 2 741
    Par défaut
    Citation Envoyé par zaza576 Voir le message
    Se baser sur l'existant est déjà une bonne chose.
    SI le but est de concevoir un produit, certainement. Si le but est d'explorer le domaine de la programmation par passion, je recommande de réinventer la route.

    Mais nous sommes d'accord sur le fait que mettre au point un système de reconnaissance vocale digne de ce nom est hors de portée d'un simple individu (sauf peut-être très talentueux, motivé, expérimenté, prêt à y consacrer des années de sa vie) et a fortiori d'un débutant. Non seulement du fait de la complexité mais aussi du fait du manque de bases de données publiques dignes de ce nom pour entraîner l'algorithme.


    Cela dit, en vrac, pour donner un aperçu du problème :

    * La voix est composée de voyelles (arrangement statique des harmoniques - une voyelle peut être maintenue) et de consonnes (variations dynamiques et transitoires des harmoniques - une consonne ne peut pas être maintenue). Il existe de nombreux types de voyelles phonétiques (eu, é, è sont trois voyelles par ex). Les fréquences correspondantes sont relatives et spécifiques à chaque être humain, rien de simple en la matière, et les bandes peuvent être plus ou moins larges. Il est difficile pour un être humain d'identifier des voyelles même très distinctes depuis une visualisation des harmoniques, c'est très subtil. La tâche implique presque toujours un réseau neural. Il me semble que les plus modernes créent une modélisation mathématique de l'appareil vocal d'un individu (cordes, gorge, bouche). Enfin une approche uniquement statique donne des résultat potables-bof.

    * Une fois les phonèmes identifiées, on utilise généralement Viterbi et ses dérivés pour en déduire les mots correspondants. komanvatu correspond t-il à "comment vas-tu" ou bien à "comme en vatu" ? Une phonème peut représenter la liaison entre deux mots. La reconnaissance seule des mots ne suffit pas toujours, il faut parfois vérifier si la phrase est grammaticalement sensée pour éliminer des faux positifs. Et même cela ne suffit pas toujours, l'utilisation du sens commun est parfois indispensable. Ajoutons que le langage est rempli d'uttérances entre les mots (euh, euh, ah, hmmm, tousse, rit, soupire) qu'il faut éliminer. Et bien sûr ce sont des phonèmes ordinaires qui pourraient tout à fait faire partir d'un mot. Plus amusant encore, le micro de l'utilisateur est généralement naze, son environnement bruyant, d'autres personnes peuvent parler en fond, et l'utilisateur peut mêler plusieurs langues et utiliser plusieurs accents.

    * Une fois les mots identifiés l'identification de la structure grammaticale est un jeu d'enfants en comparaison. On peut en effet se contenter d'une grammaire non-textuelle en trichant un peu, et utiliser ainsi des parsers "simples" comme Earley. Cela permet d'obtenir un arbre du type verbe(manger, sujet = pronom(je), objet = adjectif(jaune, objet = nom(chat)))

    * Une fois la phrase reconstruite, reste à l'interpréter. Pas de miracle possible il faudra passer par la reconnaissance de motifs selon des règles prédéfinies. Par exemple la règle "ouvre (déterminant) (document)" où déterminant et document sont deux sous-règles. Par exemple document pourrait être "fichier (nom)". On identifiera alors le nom du fichier, que l'on localisera, avant de l'ouvrir.

    * J'ai mentionné qu'en général un ordinateur de bureau n'avait pas assez de puissance pour faire des analyses suffisamment pointues ?

    AHAHAHAHAHAHAHAHAHAH.

  10. #10
    Membre très actif Avatar de zaza576
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2013
    Messages
    175
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Août 2013
    Messages : 175
    Par défaut
    Je ne suis pas d'accord sur plusieurs points avec toi, DonQuiche.

    Déjà, se baser sur l'existant pour concevoir un produit (commercialisable), ce n'est pas une bonne chose => cf problèmes des licences (on ne va pas y revenir, tout le monde connaît ce sujet).
    Je parlais, et c'est le sujet de ce post d'ailleurs, d'étudier des solutions existantes, toujours au nom de la passion et de l'autoformation.

    De plus, réinventer la roue, c'est totalement ridicule quand on est débutant.
    Il y a certes les études informatiques / l'autoformation, pour apprendre à développer. Mais pour développer une application, rien de mieux que d'intégrer des API / librairies / modules / utiliser des framerworks existants.
    Pourquoi ?
    -> Apprentissage des bonnes normes / principes / best-practices qui se font sur le marché du dév informatique.
    -> Apprendre tout en utilisant les bons outils et pas des rustines développées par soi-même.
    -> Choix d'une solution adaptée
    -> Simplicité et gain de temps (important dans la formation)
    -> Compréhension du code existant et apprentissage à partir de celui-ci (principe des systèmes experts => partir de vérités pour apprendre bien et bien apprendre)

    Le sujet traite de la reconnaissance vocale. Je vois mal un débutant attaquer directement à bras le corps ce sujet sans même regarder ce qui se fait sur le marché...
    Mon argument est donc la vitesse d'apprentissage. Et pour cela, rien de mieux que de s'inspirer des meilleurs pour atteindre cet objectif pour soi.

    Les entreprises et scientifiques qui ont parcouru ce chemin ont mis des années avant d'obtenir des outils améliorés mais perfectibles (Google Voice, Siri, CMU Sphinx, ...).
    Il leur a fallu aussi entraîner leur moteur de reconnaissance sur la base de données faramineuses, chose qu'un simple PC ne peut réaliser en autant de tant (manque de RAM et CPU et capacité de stockage).

  11. #11
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    Citation Envoyé par DonQuiche Voir le message
    verbe(manger, sujet = pronom(je), objet = adjectif(jaune, objet = nom(chat)))

    excellent épluchage de la problématique par ailleurs

Discussions similaires

  1. Reconnaissance vocale et algorithme de Viterbi
    Par manouch8 dans le forum Algorithmes et structures de données
    Réponses: 2
    Dernier message: 01/01/2015, 18h24
  2. Recherche de moteurs de reconnaissance vocale
    Par Raylemon dans le forum Composants VCL
    Réponses: 1
    Dernier message: 17/08/2005, 17h00
  3. [C#] [WinForms] Reconnaissance vocale ?
    Par vandeyy dans le forum Windows Forms
    Réponses: 3
    Dernier message: 29/11/2004, 14h30
  4. Réponses: 8
    Dernier message: 05/10/2004, 00h02
  5. Logiciel professionnel de reconnaissance vocale
    Par samyl dans le forum Applications et environnements graphiques
    Réponses: 2
    Dernier message: 01/04/2004, 14h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo