reconnaissance note: fft et transformee en cosinus discrète

**acx01b** · 27/01/2008, 00h04

Bonjour,

je viens enfin de comprendre (j'y ai mis le temps) que la transformée de fourier discrète était simplement un changement de base (comme une rotation en 3d)

par contre j'ai un petit problème:

quelle sera (conceptuellement ?) la différence entre une transformée en sinusoïde déphasées (la fft) et une transformée en cosinusoïde centrées en 0 pour la phase (transformée en cosinus discret)

notammenent j'aimerais avoir une idée intuitive de la différence entre ces 2 analyses spectrales pour la détection de note

merci d'avance, Renaud

**nabil** · 27/01/2008, 17h10

Tout d'abord il faut savoir que :

1- la transformée de Fourier rapide (FFT ou Fast Fourier Transform) est un algorithme de calcul de la transformée de Fourier discrète (TFD).

2- La Transformée en cosinus discrète ou TCD (DCT ou Discrete Cosine Transform) est une transformation proche de la transformée de Fourier discrète (DFT). Le noyau de projection est un cosinus et génère donc des coefficients réels, contrairement à la DFT, dont le noyau est une exponentielle complexe et qui génère donc des coefficients complexes.

3- La TFD est couramment utilisé en traitement numérique du signal pour transformer des données discrètes du domaine temporel dans le domaine fréquentiel, en particulier dans les analyseurs de spectre. Son efficacité permet de réaliser des filtrages en passant dans le domaine transformé.

4- la TFD présente une diminution complexité opératoire.

5- la TCD présente une meilleure reconstruction aprés tranquature que la TFD (passage entre les domaine temporel -------> fréquentiel --------> temporel)

**nabil** · 27/01/2008, 17h16

Concernant la détection de note est ce que tu pourra m'expliquer d'avantage ce que tu veux.
Une page scanner et faire un OCR ou quoi ???

**acx01b** · 27/01/2008, 18h31

bonjour tout ça je le sais

pour la troncature: je ne vois pas bien de quoi tu parles vu qu'un son est codé par des entiers sur 16bit, on fait la fft sur des float 4octets donc a priori il n'y aura que peu d'erreur (pas du tout?) pour la fft et pour la DCT

ce que j'appelle la détection de note: on a un son on fait une réprésentation temps-fréquence, et on cherche à détecter les notes qui composent le son (par exemple une sonate de beethoven au piano... l'état de l'art dans le domaine serait plutôt d'analyser avec succès une mélodie monophonique pas plus)

ce que je veux dire par ce que réprésente conceptuellement la différence la DCT par rapport à la DFT:
en musique on considère qu'une note pure sera composée d'une fréquence fondamentale et d'harmoniques (après la 3ième harmonique l'intensité doit être bien moins grande que la fondamentale pour qu'on considère que c'est une note pure)
le problème est que la DFT ne donne pas une bonne réprésentation de ces notes, alors que pourtant on a effectivement exprimé le son comme somme de notes pures (de sinusoïdes)
si la DFT était une bonne réprésentation musicale d'un son, alors la DCT le serait aussi, même si l'une autorise les fréquences déphasées et l'autre pas (puisque dans les 2 cas on a exprimé un son comme somme de notes)
à l'inverse si la plus complexe des 2 (la DFT) n'est pas une bonne représentation d'un son, alors la DCT non plus

Renaud

**acx01b** · 27/01/2008, 19h44

d'autre part j'aimerais avoir votre avis sur une possible réponse à "que doit être une bonne analyse fréquentielle d'un son":

supposons qu'un son c'est une somme de sinusoïde (somme de notes localisées dans le temps)

en partant du fait qu'une telle décomposition n'est pas unique, on peut essayer de définir ce qu'est une décomposition optimale:
pour chaque fréquence réelle f (on a en plus des fréquences entières, des fréquence réelles)
le temps lui reste discret ! (c'est logique on a un signal discret au départ)

on a l'amplitude de cette fréquence en fonction du temps: A(f,t)
et le déphasage de cette fréquence en fonction du temps: P(f,t)

la décomposition fréquentielle est optimale si pour chaque fréquence la variation des phases et des amplitudes en fonction du temps est minimale,
et que le nombre de fréquences d'amplitude non nulle est minimal

c'est précisément ce que n'arrive pas à faire la transformée en ondelette et encore moins la transformée de fourier

**FR119492** · 27/01/2008, 22h49

Salut !

Quels que soient les conseils que l'on te donnera, et quels que soient les algorithmes que tu choisiras, il te faudra bien les tester sur des notes jouées sur des instruments réels. Alors, plutôt que de perdre du temps à générer des échantillons, vas donc voir sur http://theremin.music.uiowa.edu/MIS.html

Bonne chance
Jean-Marc Blanc

**nabil** · 27/01/2008, 23h10

pour la caractérisation du son, je pense qu'on utilise la transformée de fourrier à coute terme TFCT au lieu de la DFT.
Concernant la tronquature, en compression d'image on utilise la TFD et la TCD suivie d'une tranquature suivant le nombre de bit avec lequel on peut coder chaque pixel mais en fesantt l'opération inverse et la reconstitution on obtient avec la TCD une meilleure reconstitution. Je pense que ca sera de même pour le son.

reconnaissance note: fft et transformee en cosinus discrète

Traitement du signal

Discussions similaires

Partager

Partager