IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Traitement du signal Discussion :

Reconnaissance automatique de la parole


Sujet :

Traitement du signal

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2018
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 25
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2018
    Messages : 2
    Points : 1
    Points
    1
    Par défaut Reconnaissance automatique de la parole
    Bonjour,
    dans le cadre de travaux, je suis amené à étudier la notion de reconnaissance automatique de la parole à l'aide des réseaux de neurones.
    J'aimerai alors savoir s'il était envisageable de développer un "petit" algorithme de type réseaux de neurones et l'entrainer à reconnaitre quelques consonnes ou voyelles phonétiques, pour ensuite tester son efficacité.
    Et si oui, quelques explications/conseils pour y parvenir.
    Merci d'avance.

  2. #2
    Nouveau membre du Club
    Homme Profil pro
    https://rplusplus.com/
    Inscrit en
    Février 2018
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : https://rplusplus.com/
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2018
    Messages : 12
    Points : 35
    Points
    35
    Par défaut Réseau de neurone pour la reconnaissance de la parole
    Bonjour,

    C'est un projet assez ambitieux.
    Je ne suis pas expert des réseaux de neurones, mais j'ai fait un peu de classification de signaux avec d'autres méthodes, et certains conseils vont s'appliquer aussi.

    La première étape, c'est le pré-traitement de ton signal. Il ne faut surtout pas sous-estimer son importance. Disons que ton signal d'entrée est un son d'une seconde, échantillonné à 10 000Hz.

    _ Tu peux transformer ton signal, par exemple par la transformée de Fourier. Donner la transformée de Fourier en entrée de ton réseau plutôt que le signal brut est sans doute préférable.

    _ Tu peux lisser le signal. Pas évident de reconnaitre un son quand il y a de la friture sur la ligne. Appliquer un filtre passe-bas au signal (par exemple avec une fréquence de coupure à 1000 Hz) devrait te permettre de réduire ce bruit.

    _ Tu peux sous-échantillonner le signal. Pour une voix humaine, il ne semble pas très utile d'avoir des infos au-delà de 1000Hz (à vue de nez). Ca nous gagne pas mal sur la dimension du signal.

    Toutes ces méthodes visent à réduire la dimension du signal, tout en conservant l'information utile (ça va être dur de classifié si on a trop filtré et qu'il ne reste rien). Elles visent aussi à améliorer le rapport signal/bruit.
    Si ces étapes-là sont bien faites, ton réseau reçoit en entrée des données plus claires (moins bruitées) et plus simples (petite dimension). Ca va énormément te faciliter la tâche. Tu aura besoin d'un réseau de neurone plus petit, et de moins de données d'entrainement.

    Bon courage !

  3. #3
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2018
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 25
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2018
    Messages : 2
    Points : 1
    Points
    1
    Par défaut
    Merci beaucoup pour ces précisions.
    J'aimerais vous poser une autre question : après avoir analysé mon signal, quelles sont les différentes caractéristiques que je pourrai utiliser en entrée de mon réseau de neurones ? L'amplitude des différentes composantes, la durée du signal ? Quoi d'autre ?
    Merci d'avance.

  4. #4
    Nouveau membre du Club
    Homme Profil pro
    https://rplusplus.com/
    Inscrit en
    Février 2018
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : https://rplusplus.com/
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2018
    Messages : 12
    Points : 35
    Points
    35
    Par défaut
    Difficile à dire, n'étant pas expert de la reconnaissance de la parole.
    Si vous parlez bien anglais, vous pouvez voir ce que vous trouvez sur google scholar avec les mot-clés: "features for speech recognition", mais ça va vitre être très spécialisé.

    De base, l'amplitude (Fourier) dans différentes bandes de fréquence, et échantillonnée avec une bonne précision, devrait déjà pouvoir suffire, pour une version simple.
    Je pense que vous avez intérêt à mettre en place un système basé uniquement sur Fourier, avant d'aller chercher plus loin. C'est déjà assez riche en information, et vous allez devoir faire les bons choix (par essais/erreur, sans doute) sur les paramètres d'échantillonnage (sur quelle plage de on applique la transformation, utilise-t-on une fenêtre glissante, etc)

  5. #5
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour à tous,

    Connaissant la reconnaissance de la voix, il existe des bases de connaissance sur Kaggle pour l'anglais.

    Il y a aussi des exemples de réseaux de neurone récursif, ils sont utilisés plutôt sur un mot que sur une syllabe.

    Dernier point, il me semble que le traitement de l'image du signal et des fréquences du son à l'aide de réseaux de neurones de reconnaissance de forme est plus efficace que les réseaux récursifs.

    Bien cordialement,

Discussions similaires

  1. [Débutant] Interface Graphique de Reconnaissance Automatique de la Parole
    Par Moodisme dans le forum Interfaces Graphiques
    Réponses: 8
    Dernier message: 27/04/2015, 18h27
  2. reconnaissance automatique de la parole
    Par myriamee dans le forum Signal
    Réponses: 0
    Dernier message: 10/12/2014, 18h18
  3. Reconnaissance automatique d'images avec méthode SURF
    Par wilfryjules dans le forum C++
    Réponses: 0
    Dernier message: 04/02/2012, 18h03
  4. [AC-2003] Reconnaissance automatiques des photos dans un formulaire
    Par vlksoft dans le forum IHM
    Réponses: 1
    Dernier message: 02/11/2009, 09h30
  5. Reconnaissance automatique d'un périphérique USB
    Par noussibeau dans le forum Windows XP
    Réponses: 9
    Dernier message: 06/08/2007, 08h30

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo