IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Traitement du signal Discussion :

[Son] Separer les dialogues dans un fichier son


Sujet :

Traitement du signal

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre habitué
    Profil pro
    Inscrit en
    Février 2005
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 8
    Par défaut [Son] Separer les dialogues dans un fichier son
    Bonjour à tous,

    Je possède un enregistrement de quelques heures en MP3 sur lequel il y-a des dialogues de personnes distinctes (chaque personne parle l'une aprés l'autre et il n'y a pas trop de bruits).
    Je voudrais pour chaque dialogue d'une meme personne, couper le son correpondant a ce qu'il a dit.

    En gros je voudrai que chaque dialogue se retrouve dans un fichier son distinct.

    J'avoue que je vois vraiment pas comment réaliser cela. Toute aide serait la bienvenue !!

    J'ai fait une recherche dans le forum et apparemment il faudrait que je passe par une FFT voir par une intercorrelation?? (ces termes sont nouveaux pour moi, donc avant de me lancer dans l'etude dans l'une de ces notions, j'attends vos avis )


    En tout cas merci

  2. #2
    Membre chevronné
    Profil pro
    Enseignant
    Inscrit en
    Avril 2004
    Messages
    440
    Détails du profil
    Informations personnelles :
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2004
    Messages : 440
    Par défaut
    Lol !
    Je suis pas sûr que ça soit vraiment faisable en l'état actuel des choses !

    Pour caractériser la voix, je ne pense pas que la fréquence soit suffisante... Si je parle fort, faiblement, si je mets des intonnations, etc etc, ça va être très dur à caractériser....

    Déjà caractériser une voix (je pense par exemple à la reconnaissance d'une voix dans les écoutes téléphoniques , on n'en sait pas grand chose), c'est chaud... Alors en séparer plusieurs...

    Mais bon je peux me tromper !
    Ils sont où les ingénieurs de 24 heures chrono, pour nous aider là ?

  3. #3
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 43
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Par défaut
    Ouh là, c'est chaud comme truc, surtout si tu ne connais pas la FFT
    Avec une FFT, il te faudrait trouver la fréquence fondamentale et le timbre d'une voix, sachant qu'aux frontières, on aura les 2, bof bof. Ensuite comment attribuer à une seule personne les couples fréquence/timbre, sachant que les derniers sont différents selon ce qu'on dit et que le premier varie tout le temps ? - on avait tenté de faire une compression de la voix en dernière année d'école d'ing, avec générationd e al fréquence fondamentale + filtre après, c'était pas évident d'avoir un résultat correct, alors là, ça va être encore plus chaud, j'en ai bien peur.

  4. #4
    Membre habitué
    Profil pro
    Inscrit en
    Février 2005
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 8
    Par défaut
    Humm la j'avoue que je suis plus trop rassuré !! lol

    En fait si je prend juste une conversation entre 2 personnes différentes qui parlent l'une à la suite de l'autre, ca devient pas plus simple?

    ps : désolé si mes questions sont anodines

  5. #5
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 43
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Par défaut
    Il va falloir pouvoir faire une décision sur les variations de fréquences fondamentales au moins, sachant qu'avec une FFT, elle sera mal définie lors des changements de personnes qui parlent

  6. #6
    Membre éprouvé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Par défaut
    Citation Envoyé par morphisme
    Bonjour à tous,

    Je possède un enregistrement de quelques heures en MP3 sur lequel il y-a des dialogues de personnes distinctes (chaque personne parle l'une aprés l'autre et il n'y a pas trop de bruits).
    Je voudrais pour chaque dialogue d'une meme personne, couper le son correpondant a ce qu'il a dit.
    Si chaque personne parle l'une après l'autre, reste à savoir s'il n'y a pas de blancs trop longs dans la parole de chacun, et si le blanc entre chaque voix est suffisament long.
    Auquel cas, il "suffit" de détecter de blanc.
    C'est un problème de détection de signal, l'autocorrélation (et pas l'inter dans ton cas) doit suffir.
    PS: En même temps, sans le son, ou l'image de celui-ci (audacity est ton ami), difficile de conclure

  7. #7
    Membre émérite
    Inscrit en
    Juin 2005
    Messages
    644
    Détails du profil
    Informations professionnelles :
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2005
    Messages : 644
    Par défaut
    Le problème est effectivement délicat.
    Je vous engage à lire le livre
    Fundamentals of speech recognition de Rabiner & Juang
    Prentice Hall EngelWood Cliffs NewJersey 07632 ISBN 0-13-015157-2
    A priori, je ne serais tout de même pas aussi pessimiste que les autres intervenants.
    De softs comme DRAGON reconnaissent pas si mal un interlocuteur en texte continu et s’arrête de reconnaître aussitôt que l’interlocuteur change. Dans ce cas le soft est + compliqué car il y a de la reconnaissance mais par contre il bénéficie d’un training.
    Ici l’analyse des pitchs ( FFT et surtout ondelettes) pourraient amener des résultats.
    Je serais intéressé d’avoir en MP un exemple de wave pour tester certains algorithmes et méthodes que j’ai utilisées en ASR.

  8. #8
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 43
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Par défaut
    Ah, c'est sûr, c'est faisable, et avec un peu de travail, je serai capable de le faire sans aucun problème, mais quand on ne connaît pas la FFT, il faut plutôt d'abord apprendre le traitement du signal pour pouvoir tester quels algos donnent des discriminations claires et lesquels non.

  9. #9
    Membre éprouvé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Par défaut
    J'ai beau lire, relire, re-relire, je ne vois pas de phrase diant qu'il souhaite extraire les phrases sous la forme de texte, mais bien couper le son en plusieurs fichiers sons distincts...
    C'est quand même super moins dur

  10. #10
    Membre habitué
    Profil pro
    Inscrit en
    Février 2005
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 8
    Par défaut
    Merci de vos réponses, je vais donc commencer par étudier un peu plus les FFT et eventuellement voir si je peux me procurer le livre conseillé par j.p.mignot.

    Comme l'a dit progfou je ne cherche pas a extraire ce qui est dit sous la forme de texte mais seulement couper le fichier son en fonction de la personne qui parle

Discussions similaires

  1. remplacer les String dans un fichier
    Par makohsarah dans le forum Langage
    Réponses: 3
    Dernier message: 29/05/2006, 13h34
  2. Afficher tous les "cout" dans un fichier
    Par tibouchou dans le forum SL & STL
    Réponses: 6
    Dernier message: 18/03/2006, 12h08
  3. Sauvegarder les données dans un fichier CSV
    Par beb30 dans le forum MFC
    Réponses: 5
    Dernier message: 08/03/2006, 13h06
  4. [](VB) Récupérer les données dans un fichier .xml
    Par Furius dans le forum VBScript
    Réponses: 4
    Dernier message: 02/10/2005, 20h39
  5. Supprimer les guillemets dans un fichier après écriture
    Par soulryo dans le forum VB 6 et antérieur
    Réponses: 4
    Dernier message: 01/03/2005, 11h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo