IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Traitement du signal Discussion :

[Son] Separer les dialogues dans un fichier son


Sujet :

Traitement du signal

  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2005
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 8
    Points : 7
    Points
    7
    Par défaut [Son] Separer les dialogues dans un fichier son
    Bonjour à tous,

    Je possède un enregistrement de quelques heures en MP3 sur lequel il y-a des dialogues de personnes distinctes (chaque personne parle l'une aprés l'autre et il n'y a pas trop de bruits).
    Je voudrais pour chaque dialogue d'une meme personne, couper le son correpondant a ce qu'il a dit.

    En gros je voudrai que chaque dialogue se retrouve dans un fichier son distinct.

    J'avoue que je vois vraiment pas comment réaliser cela. Toute aide serait la bienvenue !!

    J'ai fait une recherche dans le forum et apparemment il faudrait que je passe par une FFT voir par une intercorrelation?? (ces termes sont nouveaux pour moi, donc avant de me lancer dans l'etude dans l'une de ces notions, j'attends vos avis )


    En tout cas merci

  2. #2
    Membre confirmé
    Profil pro
    Enseignant
    Inscrit en
    Avril 2004
    Messages
    440
    Détails du profil
    Informations personnelles :
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2004
    Messages : 440
    Points : 451
    Points
    451
    Par défaut
    Lol !
    Je suis pas sûr que ça soit vraiment faisable en l'état actuel des choses !

    Pour caractériser la voix, je ne pense pas que la fréquence soit suffisante... Si je parle fort, faiblement, si je mets des intonnations, etc etc, ça va être très dur à caractériser....

    Déjà caractériser une voix (je pense par exemple à la reconnaissance d'une voix dans les écoutes téléphoniques , on n'en sait pas grand chose), c'est chaud... Alors en séparer plusieurs...

    Mais bon je peux me tromper !
    Ils sont où les ingénieurs de 24 heures chrono, pour nous aider là ?
    "Cultiver les sciences et ne pas aimer les hommes, c'est allumer un flambeau et fermer les yeux." Proverbe chinois

  3. #3
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 42
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Points : 20 970
    Points
    20 970
    Par défaut
    Ouh là, c'est chaud comme truc, surtout si tu ne connais pas la FFT
    Avec une FFT, il te faudrait trouver la fréquence fondamentale et le timbre d'une voix, sachant qu'aux frontières, on aura les 2, bof bof. Ensuite comment attribuer à une seule personne les couples fréquence/timbre, sachant que les derniers sont différents selon ce qu'on dit et que le premier varie tout le temps ? - on avait tenté de faire une compression de la voix en dernière année d'école d'ing, avec générationd e al fréquence fondamentale + filtre après, c'était pas évident d'avoir un résultat correct, alors là, ça va être encore plus chaud, j'en ai bien peur.

  4. #4
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2005
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 8
    Points : 7
    Points
    7
    Par défaut
    Humm la j'avoue que je suis plus trop rassuré !! lol

    En fait si je prend juste une conversation entre 2 personnes différentes qui parlent l'une à la suite de l'autre, ca devient pas plus simple?

    ps : désolé si mes questions sont anodines

  5. #5
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 42
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Points : 20 970
    Points
    20 970
    Par défaut
    Il va falloir pouvoir faire une décision sur les variations de fréquences fondamentales au moins, sachant qu'avec une FFT, elle sera mal définie lors des changements de personnes qui parlent

  6. #6
    Membre éclairé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Points : 763
    Points
    763
    Par défaut
    Citation Envoyé par morphisme
    Bonjour à tous,

    Je possède un enregistrement de quelques heures en MP3 sur lequel il y-a des dialogues de personnes distinctes (chaque personne parle l'une aprés l'autre et il n'y a pas trop de bruits).
    Je voudrais pour chaque dialogue d'une meme personne, couper le son correpondant a ce qu'il a dit.
    Si chaque personne parle l'une après l'autre, reste à savoir s'il n'y a pas de blancs trop longs dans la parole de chacun, et si le blanc entre chaque voix est suffisament long.
    Auquel cas, il "suffit" de détecter de blanc.
    C'est un problème de détection de signal, l'autocorrélation (et pas l'inter dans ton cas) doit suffir.
    PS: En même temps, sans le son, ou l'image de celui-ci (audacity est ton ami), difficile de conclure
    Aucune réponse à une question technique par MP.
    Ce qui vous pose problème peut poser problème à un(e) autre

    http://thebrutace.labrute.fr

  7. #7
    Membre éclairé
    Inscrit en
    Juin 2005
    Messages
    644
    Détails du profil
    Informations professionnelles :
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2005
    Messages : 644
    Points : 754
    Points
    754
    Par défaut
    Le problème est effectivement délicat.
    Je vous engage à lire le livre
    Fundamentals of speech recognition de Rabiner & Juang
    Prentice Hall EngelWood Cliffs NewJersey 07632 ISBN 0-13-015157-2
    A priori, je ne serais tout de même pas aussi pessimiste que les autres intervenants.
    De softs comme DRAGON reconnaissent pas si mal un interlocuteur en texte continu et s’arrête de reconnaître aussitôt que l’interlocuteur change. Dans ce cas le soft est + compliqué car il y a de la reconnaissance mais par contre il bénéficie d’un training.
    Ici l’analyse des pitchs ( FFT et surtout ondelettes) pourraient amener des résultats.
    Je serais intéressé d’avoir en MP un exemple de wave pour tester certains algorithmes et méthodes que j’ai utilisées en ASR.

  8. #8
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 42
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Points : 20 970
    Points
    20 970
    Par défaut
    Ah, c'est sûr, c'est faisable, et avec un peu de travail, je serai capable de le faire sans aucun problème, mais quand on ne connaît pas la FFT, il faut plutôt d'abord apprendre le traitement du signal pour pouvoir tester quels algos donnent des discriminations claires et lesquels non.

  9. #9
    Membre éclairé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Points : 763
    Points
    763
    Par défaut
    J'ai beau lire, relire, re-relire, je ne vois pas de phrase diant qu'il souhaite extraire les phrases sous la forme de texte, mais bien couper le son en plusieurs fichiers sons distincts...
    C'est quand même super moins dur
    Aucune réponse à une question technique par MP.
    Ce qui vous pose problème peut poser problème à un(e) autre

    http://thebrutace.labrute.fr

  10. #10
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2005
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 8
    Points : 7
    Points
    7
    Par défaut
    Merci de vos réponses, je vais donc commencer par étudier un peu plus les FFT et eventuellement voir si je peux me procurer le livre conseillé par j.p.mignot.

    Comme l'a dit progfou je ne cherche pas a extraire ce qui est dit sous la forme de texte mais seulement couper le fichier son en fonction de la personne qui parle

  11. #11
    Membre éclairé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Points : 763
    Points
    763
    Par défaut
    Dans ce cas, relis mon message #6, et puis on va pouvoir avancer .
    Aucune réponse à une question technique par MP.
    Ce qui vous pose problème peut poser problème à un(e) autre

    http://thebrutace.labrute.fr

  12. #12
    Membre habitué
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Mai 2006
    Messages
    75
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Consultant informatique

    Informations forums :
    Inscription : Mai 2006
    Messages : 75
    Points : 160
    Points
    160
    Par défaut
    j'ai déjà travaillé avec des outils détectant la voix.

    Tout d'abord, si des voix se supperposent, pas de solution valable en pratique.

    Si elles ne se supperposent pas, il y deux choses à faire:

    1 - Une détection de "signal voisé" qui te permettra d'identifier les sections contenant de la voix et les blancs.

    2 - Un système d'emprunte vocale pour identifier chaque personne.

    Pour la détection de signal voisé, ça se fait à grand coup de fft. Si tu rentres signal voisé sur google, tu devrais trouver ton bonheur. Pour l'emprunte, c'est beaucoup plus compliqué mais si ça te tentes...

Discussions similaires

  1. remplacer les String dans un fichier
    Par makohsarah dans le forum Langage
    Réponses: 3
    Dernier message: 29/05/2006, 13h34
  2. Afficher tous les "cout" dans un fichier
    Par tibouchou dans le forum SL & STL
    Réponses: 6
    Dernier message: 18/03/2006, 12h08
  3. Sauvegarder les données dans un fichier CSV
    Par beb30 dans le forum MFC
    Réponses: 5
    Dernier message: 08/03/2006, 13h06
  4. [](VB) Récupérer les données dans un fichier .xml
    Par Furius dans le forum VBScript
    Réponses: 4
    Dernier message: 02/10/2005, 20h39
  5. Supprimer les guillemets dans un fichier après écriture
    Par soulryo dans le forum VB 6 et antérieur
    Réponses: 4
    Dernier message: 01/03/2005, 11h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo