[Son] Separer les dialogues dans un fichier son

**morphisme** · 29/05/2006, 11h15

Bonjour à tous,

Je possède un enregistrement de quelques heures en MP3 sur lequel il y-a des dialogues de personnes distinctes (chaque personne parle l'une aprés l'autre et il n'y a pas trop de bruits).
Je voudrais pour chaque dialogue d'une meme personne, couper le son correpondant a ce qu'il a dit.

En gros je voudrai que chaque dialogue se retrouve dans un fichier son distinct.

J'avoue que je vois vraiment pas comment réaliser cela. Toute aide serait la bienvenue !!

J'ai fait une recherche dans le forum et apparemment il faudrait que je passe par une FFT voir par une intercorrelation?? (ces termes sont nouveaux pour moi, donc avant de me lancer dans l'etude dans l'une de ces notions, j'attends vos avis

)

En tout cas merci

**mathieu_t** · 29/05/2006, 11h46

Lol !

Je suis pas sûr que ça soit vraiment faisable en l'état actuel des choses !

Pour caractériser la voix, je ne pense pas que la fréquence soit suffisante... Si je parle fort, faiblement, si je mets des intonnations, etc etc, ça va être très dur à caractériser....

Déjà caractériser une voix (je pense par exemple à la reconnaissance d'une voix dans les écoutes téléphoniques

, on n'en sait pas grand chose), c'est chaud... Alors en séparer plusieurs...

Mais bon je peux me tromper !
Ils sont où les ingénieurs de 24 heures chrono, pour nous aider là ?

**Matthieu Brucher** · 29/05/2006, 11h49

Ouh là, c'est chaud comme truc, surtout si tu ne connais pas la FFT

Avec une FFT, il te faudrait trouver la fréquence fondamentale et le timbre d'une voix, sachant qu'aux frontières, on aura les 2, bof bof. Ensuite comment attribuer à une seule personne les couples fréquence/timbre, sachant que les derniers sont différents selon ce qu'on dit et que le premier varie tout le temps ? - on avait tenté de faire une compression de la voix en dernière année d'école d'ing, avec générationd e al fréquence fondamentale + filtre après, c'était pas évident d'avoir un résultat correct, alors là, ça va être encore plus chaud, j'en ai bien peur.

**morphisme** · 29/05/2006, 12h28

Humm la j'avoue que je suis plus trop rassuré !! lol

En fait si je prend juste une conversation entre 2 personnes différentes qui parlent l'une à la suite de l'autre, ca devient pas plus simple?

ps : désolé si mes questions sont anodines

**Matthieu Brucher** · 29/05/2006, 13h04

Il va falloir pouvoir faire une décision sur les variations de fréquences fondamentales au moins, sachant qu'avec une FFT, elle sera mal définie lors des changements de personnes qui parlent

**progfou** · 29/05/2006, 13h27

Envoyé par morphisme

Bonjour à tous,

Je possède un enregistrement de quelques heures en MP3 sur lequel il y-a des dialogues de personnes distinctes (chaque personne parle l'une aprés l'autre et il n'y a pas trop de bruits).
Je voudrais pour chaque dialogue d'une meme personne, couper le son correpondant a ce qu'il a dit.

Si chaque personne parle l'une après l'autre, reste à savoir s'il n'y a pas de blancs trop longs dans la parole de chacun, et si le blanc entre chaque voix est suffisament long.
Auquel cas, il "suffit" de détecter de blanc.
C'est un problème de détection de signal, l'autocorrélation (et pas l'inter dans ton cas) doit suffir.
PS: En même temps, sans le son, ou l'image de celui-ci (audacity est ton ami), difficile de conclure

**j.p.mignot** · 29/05/2006, 18h20

Le problème est effectivement délicat.
Je vous engage à lire le livre
Fundamentals of speech recognition de Rabiner & Juang
Prentice Hall EngelWood Cliffs NewJersey 07632 ISBN 0-13-015157-2
A priori, je ne serais tout de même pas aussi pessimiste que les autres intervenants.
De softs comme DRAGON reconnaissent pas si mal un interlocuteur en texte continu et s’arrête de reconnaître aussitôt que l’interlocuteur change. Dans ce cas le soft est + compliqué car il y a de la reconnaissance mais par contre il bénéficie d’un training.
Ici l’analyse des pitchs ( FFT et surtout ondelettes) pourraient amener des résultats.
Je serais intéressé d’avoir en MP un exemple de wave pour tester certains algorithmes et méthodes que j’ai utilisées en ASR.

**Matthieu Brucher** · 29/05/2006, 18h34

Ah, c'est sûr, c'est faisable, et avec un peu de travail, je serai capable de le faire sans aucun problème, mais quand on ne connaît pas la FFT, il faut plutôt d'abord apprendre le traitement du signal pour pouvoir tester quels algos donnent des discriminations claires et lesquels non.

**progfou** · 29/05/2006, 19h25

J'ai beau lire, relire, re-relire, je ne vois pas de phrase diant qu'il souhaite extraire les phrases sous la forme de texte, mais bien couper le son en plusieurs fichiers sons distincts...
C'est quand même super moins dur

**morphisme** · 31/05/2006, 15h00

Merci de vos réponses, je vais donc commencer par étudier un peu plus les FFT et eventuellement voir si je peux me procurer le livre conseillé par j.p.mignot.

Comme l'a dit progfou je ne cherche pas a extraire ce qui est dit sous la forme de texte mais seulement couper le fichier son en fonction de la personne qui parle

**progfou** · 01/06/2006, 09h18

Dans ce cas, relis mon message #6, et puis on va pouvoir avancer

.

**Seb_de_lille** · 05/06/2006, 17h17

j'ai déjà travaillé avec des outils détectant la voix.

Tout d'abord, si des voix se supperposent, pas de solution valable en pratique.

Si elles ne se supperposent pas, il y deux choses à faire:

1 - Une détection de "signal voisé" qui te permettra d'identifier les sections contenant de la voix et les blancs.

2 - Un système d'emprunte vocale pour identifier chaque personne.

Pour la détection de signal voisé, ça se fait à grand coup de fft. Si tu rentres signal voisé sur google, tu devrais trouver ton bonheur. Pour l'emprunte, c'est beaucoup plus compliqué mais si ça te tentes...

[Son] Separer les dialogues dans un fichier son

Traitement du signal

Discussions similaires

Partager

Partager