Bonjour tout le monde,
Je suis en train de travailler sur un système de reconnaissance vocale monolocuteur (sur des mots isolés).
Voilà en gros, les étapes que je compte traiter :
1) Acquisition du signal & rééchantillonage (mon aquisition se fait en 44kz, je compte descendre à 20 khz pour améliorer les temps de calcul)
2) Normalisation du signal (volume)
3) Filtre de Butterworth pour nettoyer un peu le son
4) Fenêtrage de Hamming
5) Extraction des LPC
6) Comparaison DTW des vecteurs LPC avec une petite base de mots.
J'ai déjà implémenter l'acquisition, la normalisation et le filtre de Butterworth (merci à pseudocode pour cet excellent billet http://www.developpez.net/forums/d68...bas-signal-1d/)
Mais j'ai déjà quelques questions :
1) Est-ce-qu'il est préférable d'appliquer le filtre de Butterworth au son entier avant fenetrage ou bien appliquer le filtre aux portions fenetrées, avant extraction des LPC ?
2) Connaissez-vous un filtre passe-bas qui serait moins gourmand en temps de calcul que Butterworth pour un résultat a peu prés équivalent ?
Merci d'avance pour votre aide.
Partager