reconnaissance locuteur en utilisant MFCC

**imene_t1** · 10/02/2008, 15h31

bonjour à tous,
voila je dois concevoir un systeme de reconnaissance du locuteur , j'ai opté pour l'utilisation de la méthode MFCC (Mel Frequency Cepstral Coefficient ) pour l'extraction des paramètres acoustiques et la dtw (Dynamic Time Warping) pour la comparaison, je me demandais si je pouvais utiliser cette combinaison vu que la dtw compare deux vecteurs (dans mon cas je dois comparer deux matrices résultantes de la mfcc) ou il va falloir utiliser les GMM ou HMM pour la comparaison , merci d'avance.

**pseudocode** · 10/02/2008, 16h45

Envoyé par imene_t1

je me demandais si je pouvais utiliser cette combinaison vu que la dtw compare deux vecteurs (dans mon cas je dois comparer deux matrices résultantes de la mfcc)

DTW n'impose rien sur la dimension des 2 échantillons. L'algorithme construit une matrice des distances entre les 2 echantillos. Le calcul de la distance enter échantillon est laissé au choix de l'utilisateur. Ca peut etre une distance euclidienne ou tout autre distance.

**imene_t1** · 10/02/2008, 16h56

merci pour ta réponse ,

je sais que pour utiliser la dtw , il faut construire au préalable une matrice des distances , ayant 2 vecteurs X1 et X2 par exemples , on prend chaque point du vecteur X1 et on calcule la distance avec tous les points du vecteur X2, ainsi de suite .
Comme moi je manipule des matrices (pas de vecteur) , je ne sais pas comment construire la matrice des distances , tu peux m'orienter un peu plus , merci

**pseudocode** · 10/02/2008, 17h32

Envoyé par imene_t1

Comme moi je manipule des matrices (pas de vecteur) , je ne sais pas comment construire la matrice des distances , tu peux m'orienter un peu plus , merci

Tout dépend de ce que représente tes matrices de valeurs.

-Si tes matrices sont une "liste" (une dimension) de valeurs (plusieurs dimensions), tu utilises l'algo DTW "standard" avec une distance inter-vecteur:

d2(v1,v2)=racine( d1(v1.x,v1.y)² + d1(v1.y,v1.y)² + ...)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
for i := 1 to n
  for j := 1 to m
 
    cost := SQRT( distance(A[i,0],B[j,0])² + distance(A[i,1],B[j,1])² ) 
 
    DTW[i,j] := cost + minimum(DTW[i-1,j],DTW[ i, j-1 ],DTW[i-1, j-1])
 
  next j
next i

- Si tes matrices sont un espace (2 dimensions) de valeurs (1 dimension), tu as besoin de calculer une DTW "spatiale":

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
for i0 := 1 to n
for i1 := 1 to n
 
  for j0 := 1 to m
  for j1 := 1 to m
 
    cost := distance([A[i0,i1],B[j0,j1]]
 
    DTW[i0,i1,j0,j1] := cost + minimum(
      DTW[i0-1,i1,j0,j1], DTW[i0,i1-1,j0,j1],DTW[i0-1,i1-1,j0,j1]
      DTW[i0-1,i1,j0-1,j1], DTW[i0,i1-1,j0-1,j1],DTW[i0-1,i1-1,j0-1,j1]
      DTW[i0-1,i1,j0,j1-1], DTW[i0,i1-1,j0,j1-1],DTW[i0-1,i1-1,j0,j1-1]
      DTW[i0-1,i1,j0-1,j1-1], DTW[i0,i1-1,j0-1,j1-1],DTW[i0-1,i1-1,j0-1,j1-1]
   ) 
 
  next j
next i

(NB: formules a vérifier. Le copier/coller/editer n'est pas une technique tres sure)

**imene_t1** · 10/02/2008, 18h32

merci de m'avoir répondu ,

Ma matrice est constituée de la manière suiante:
chaque ligne (qui représente un segment du signal) de ma matrice est constituée des 13 coéfficients MFCC (en colonne) .
Le nombre de ligne de ma matrice représente ainsi le nombre de segments du signal et les colonnes représentent les 13 coéfficints MFCC retenus pour chaque segment , je vais voir tes algorithmes , merci encore

**pseudocode** · 10/02/2008, 18h47

Envoyé par imene_t1

merci de m'avoir répondu ,

Ma matrice est constituée de la manière suiante:
chaque ligne (qui représente un segment du signal) de ma matrice est constituée des 13 coéfficients MFCC (en colonne) .
Le nombre de ligne de ma matrice représente ainsi le nombre de segments du signal et les colonnes représentent les 13 coéfficints MFCC retenus pour chaque segment , je vais voir tes algorithmes , merci encore

Tu es donc dans le cas numero 1.

Ta matrice n*13 représente "n" echantillons, et chaque echantillon à 13 parametres. Il te faut donc créer une distance pour comparer deux vecteurs en dimension 13.

**imene_t1** · 10/02/2008, 18h51

je vais suivre cette piste , merci de m'avoir accordé un peu de ton temps

**lynucs** · 28/10/2009, 15h02

Bonjour,

Je recherche la même chose: utilisation de DTW pour comparer des fichiers son (en passant par la mfcc)... Est-ce que vous avez réussi?
Cordialement
Laurent

**azzou24** · 23/05/2010, 02h48

moi aussi je veu concevoir un systeme de reconnaissance de locuteur mais j'ai fai l'extraction des caracteristique du signal par LPC, et j me demande si qlq'un peu m'aider pour fair la comparaison par les GMM.
merci

reconnaissance locuteur en utilisant MFCC

Algorithmes et structures de données

Discussions similaires

Partager

Partager