IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes exploratoires Discussion :

Clustering avec probabilité d'appartenance des individus aux groupes


Sujet :

Méthodes exploratoires

  1. #1
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut Clustering avec probabilité d'appartenance des individus aux groupes
    Bonjour.

    Je cherche à faire un clustering sur une matrice de données avec ~250 individus et ~2000 dimensions.

    Les k-means ou la classification ascendante hiérarchique donnent des résultats satisfaisants.

    Cependant, avec ces méthodes, les points intermédiaires, qui sont à la limite de plusieurs groupes, sont attribués à un seul de ces groupes, ce qui est assez gênant pour ce que je voudrait faire avec ces données.

    Je crois qu'il existe des algorithmes qui permettent d'attribuer à chaque point une probabilité d'appartenir à chaque groupe. Par exemple, si un point est entre les groupes A et B, plutôt que de le mettre dans l'un ou l'autre, je voudrait avoir quelque chose du genre "40% d'appartenance au groupe A et 60% d'appartenance au groupe B".

    Connaitriez vous le nom d'un ou plusieurs algos qui permettent de faire cela?

    Merci d'avance.

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour Theta,

    Ne confond tu pas les méthodes supervisé et non supervisé.

    Dans le premier cas tes classes sont déjà définis. En faisant de la classification automatiques, tu peux donner un probabilité a chaque d'entre elle en fonction de tes paramètres.

    Dans le cas non supervisé (K-mean ...) c'est toi qui créais tes classes et aucune règle entre elles n'existe que dans la mesure ou c'est toi qui la définis.

    Ce qui serait le plus proche d'une idée de probabilité serait peut-être le Fuzzy-Kmean dont je ne suis absolument pas expert et je ne pourrait pas t'aider sur ce sujet.

    Bonne continuation.

  3. #3
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Merci pour ta réponse.

    Le Fuzzy C-Means semble en effet correspondre à ce que je cherche, je vais essayer avec ça.

  4. #4
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    J'ai testé les fuzzy C-means.

    Sur des données de test avec 2 variables, ça marche plutôt bien.

    Sur mes vraies données (2000+ variables), tous les centres convergent vers le même point. Du coup si je demande par exemple 10 clusters, le résultat va être à peu de choses près que chaque point a une appartenance de 10% à chaque cluster, ce qui ne fait pas avancer le schmilblick.

    Me doutant que ça venait du trop grand nombre de dimensions de mes données, j'ai essayé la même méthode avec la table des corrélations entre mes individus (du coup ~250 dimensions), et là ça marche correctement, avec des groupes semblables à ceux que j'avais avec les k-means.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 12/06/2013, 17h40
  2. Réponses: 1
    Dernier message: 20/04/2012, 17h18
  3. Réponses: 8
    Dernier message: 27/10/2008, 16h52
  4. Tracer des individus dans un plan avec différentes couleurs
    Par stefsas dans le forum ODS et reporting
    Réponses: 4
    Dernier message: 19/09/2008, 10h12
  5. cubic spline avec des conditions aux limites
    Par ENSAM-ALAMI dans le forum MATLAB
    Réponses: 4
    Dernier message: 23/05/2008, 11h44

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo