IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Indice de similarité entre partitions


Sujet :

C++

  1. #1
    Membre averti Avatar de Seabirds
    Homme Profil pro
    Post-doctoral fellow
    Inscrit en
    Avril 2015
    Messages
    294
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Post-doctoral fellow
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2015
    Messages : 294
    Points : 341
    Points
    341
    Par défaut Indice de similarité entre partitions
    Bonjour à toutes et à tous ! Pour certaines raison, j'ai besoin de calculer une distance entre deux partitions.
    Soit le vecteur v : {184, 184, 184, 170, 184, 170}. C'est le vecteur de référence qu'on va comparer à d'autres vecteurs de même taille, avec des critères de similarité un peu exotiques. Notamment, on ne s'intéresse pas aux valeurs exactes, sinon à la structure du vecteur (sous-groupes de valeurs).

    Soit deux vecteurs de même "structure", leur distance à v doit être égale à 0 :
    {1, 1, 1, 2, 1, 2}
    {2, 2, 2, 1, 2, 1}
    etc...

    Plus tricky, on a le droit de scinder un groupe en plusieurs. La distance doit ici aussi être de 0
    {1, 1, 1, 2, 3, 2} <- remarquez le 3 qui prend la place d'un 184 de v, ça c'est autorisé.
    {1, 1, 3, 2, 3, 2} <- on peut d'ailleurs étendre le 3 à d'autres cases, du moment que ça prend la place d'un 184
    {1, 3, 3, 2, 3, 2}

    Par contre si il y a mismatch entre groupe, là ça ne va plus : l'indice 3 sert à faire référence à la fois à la valeur 170 et à la valeur 184 de v :
    {184, 184, 184, 170, 184, 170}
    {1, 1, 3, 3, 1, 3} distance à v = 1
    {1, 3, 3, 3, 1, 3} distance à v = 2

    Mon background de maths étant un peu limité, je ne sais pas mieux formaliser ce que je veux faire, je m'en excuse.
    L'idée est d'avoir un algo qui mesure cette distance, auriez-vous entendu parler d'algo de ce genre en C++ ? N'hésitez pas à me dire à quoi ça vous fait penser, j'irai gratter de ce côté Ce n'est pas un devoir à rendre demain, c'est plutôt une demande d'aiguillage en terra incognita pour éviter de devoir ré-inventer la roue (en plus moche)

    Merci d'avance !
    Le débutant, lui, ignore qu'il ignore à ce point, il est fier de ses premiers succès, bien plus qu'il n'est conscient de l'étendue de ce qu'il ne sait pas, dès qu'il progresse en revanche, dès que s'accroît ce qu'il sait, il commence à saisir tout ce qui manque encore à son savoir. Qui sait peu ignore aussi très peu. [Roger Pol-Droit]
    Github
    Mon tout premier projet: une bibliothèque de simulation de génétique des populations

  2. #2
    Expert éminent sénior

    Femme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juin 2007
    Messages
    5 189
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 5 189
    Points : 17 141
    Points
    17 141
    Par défaut
    Le problème est précisément que si tu ne sais pas le formaliser clairement, tu ne pourras pas l'expliciter assez dans un langage de programmation.

    quelle est la formule de la distance entre deux vecteurs?

    Tu peux commencer par calculer si deux vecteurs sont à la même distance.

    En reprenant tes vecteurs d'exemple.
    1. {184, 184, 184, 170, 184, 170}
    2. {1, 1, 3, 3, 1, 3} distance à v = 1
    3. {1, 3, 3, 3, 1, 3} distance à v = 2


    Tu peux utiliser une (unsorted-)map ou un vector pour servir de traduction.
    l'idée, c'est de tout linéariser de la même manière:
    Chaque nombre est remplacé par son indice dans une liste des valeurs distinctes
    1. {184, 170}, {0, 0, 0, 1, 0, 1}
    2. {1, 3}, {0, 0, 1, 1, 0, 1}
    3. {1, 3}, {0, 1, 1, 1, 0, 1}


    Par contre, un soucis apparaitra s'il y a des permutations:
    le vecteur {170, 184, 184, 170, 184, 170} apparaitra comme {170, 184}, {0, 1, 1, 0, 1, 0} de distance apparente 5, au lieu de simplement {184, 170}, {1, 0, 0, 1, 0, 1} de distance 1

    Il faudra alors pouvoir procéder à des permutations dans l'ordre de traduction pour mesurer la distance minimale.

    La distance en elle-même pourrait être la distance de Hamming une fois la bonne traduction faite.
    Mes principes de bases du codeur qui veut pouvoir dormir:
    • Une variable de moins est une source d'erreur en moins.
    • Un pointeur de moins est une montagne d'erreurs en moins.
    • Un copier-coller, ça doit se justifier... Deux, c'est un de trop.
    • jamais signifie "sauf si j'ai passé trois jours à prouver que je peux".
    • La plus sotte des questions est celle qu'on ne pose pas.
    Pour faire des graphes, essayez yEd.
    le ter nel est le titre porté par un de mes personnages de jeu de rôle

  3. #3
    Membre averti Avatar de Seabirds
    Homme Profil pro
    Post-doctoral fellow
    Inscrit en
    Avril 2015
    Messages
    294
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Post-doctoral fellow
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2015
    Messages : 294
    Points : 341
    Points
    341
    Par défaut
    Super merci beaucoup pour l'idée d'implémentation

    Je n'avais pas entendu parler de la distance de Hamming, j'étais parti sur l'indice de Rand, l'indice de Jaccard, l'indice de Walalce et l'indice normalisé de Lermann, pour finalement voir que la variation d'information avait des propriétés assez intéressantes

    Je regarde de plus près ce fameux Hamming
    Merci encore !
    Le débutant, lui, ignore qu'il ignore à ce point, il est fier de ses premiers succès, bien plus qu'il n'est conscient de l'étendue de ce qu'il ne sait pas, dès qu'il progresse en revanche, dès que s'accroît ce qu'il sait, il commence à saisir tout ce qui manque encore à son savoir. Qui sait peu ignore aussi très peu. [Roger Pol-Droit]
    Github
    Mon tout premier projet: une bibliothèque de simulation de génétique des populations

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Dvp.NET|Intégré] [Algorithme] Evaluer la similarité entre 2 chaines
    Par tomlev dans le forum Contribuez
    Réponses: 3
    Dernier message: 30/06/2015, 20h57
  2. Mélange entre partition system et données
    Par triv113 dans le forum Windows XP
    Réponses: 41
    Dernier message: 06/12/2010, 18h32
  3. Similarité entre vecteurs
    Par DELAYMEN1 dans le forum Mathématiques
    Réponses: 3
    Dernier message: 28/07/2010, 12h39
  4. Comparaisons et similarité entre images
    Par jojo_ol76 dans le forum Traitement d'images
    Réponses: 9
    Dernier message: 05/02/2010, 11h35
  5. Similarité entre deux chaines binaires
    Par arkandias dans le forum Algorithmes et structures de données
    Réponses: 7
    Dernier message: 30/12/2007, 23h05

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo