IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes exploratoires Discussion :

Classification sans classe


Sujet :

Méthodes exploratoires

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Directeur technique
    Inscrit en
    Mars 2015
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2015
    Messages : 2
    Points : 1
    Points
    1
    Par défaut Classification sans classe
    Bonjour,

    Je me penche sur une problématique que j'ai du mal à résoudre. Je dispose de deux jeux de donnée :
    un jeu de donnée d'un population dont je sais quelle appartient à la classe 1
    un autre jeu de donnée qui contient indifféremment des populations de la classe 1 et 2

    Je cherche ici à établir un scoring d'appartenance à la classe 1 dans le deuxième jeu de donnée.

    Y à t-il un modèle performant sur cette problématique ?

    Cdt.

  2. #2
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Sur une seule variable le problème est assez simple. Il suffit de calculer des seuils au delà desquels il y a peu d'individus dans le premier jeu de données, soit en utilisant des quantiles (0.025 et 0.975 par ex), soit en approximant la distribution par une loi normale (ou autre).

    Par contre sur plusieurs variables ça se complique, et je ne connais pas la méthode à utiliser (même si j'ai 2 ou 3 vagues idées).

  3. #3
    Nouveau Candidat au Club
    Homme Profil pro
    Directeur technique
    Inscrit en
    Mars 2015
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2015
    Messages : 2
    Points : 1
    Points
    1
    Par défaut
    Salut,

    Des variables, il y en a une 20e environ, ce qui je suis d'accord avec toi, complique le problème vis à vis d'un problème à 1 variable. Quels sont tes pistes ?

    Cdt.

  4. #4
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Mon idée serait de centrer-réduire les variables puis :
    -soit de calculer pour chaque individu la distance au "barycentre" de l'ensemble des individus (qui est l'origine vu que les variables sont centrées).
    -soit de calculer pour chaque individu la distance moyenne entre cet individu et chaque autre.
    Du coup on se ramène à une seule variable et on peut appliquer la méthode dont je parlait précédemment.

    On peut également passer par une ACP, surtout si les variables sont corrélées entre elles (soit on ne garde qu'un axe, soit on en garde plusieurs et calcule les distance pour repasser à une variable).


    Mais il faudrait l’avis de quelqu'un de plus calé en stats que moi, si ça se trouve il existe une méthode plus propre pour ce problème.

  5. #5
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    D'ailleurs j'y pense, si tu fais une CAH sur l'ensemble des données, puis que tu regarde quelle "branche" contient 95% (par exemple) des individus du premier jeu de données, on peut considérer que les individu du 2ème jeu de données qui sont sur cette branche appartiennent au même groupe.
    Ça reviens un peu au même que mon histoire de distances.

  6. #6
    Membre éprouvé
    Avatar de Haache
    Homme Profil pro
    Doctorant & Ingénieur Statiaticien Economiste
    Inscrit en
    Mars 2014
    Messages
    349
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : Canada

    Informations professionnelles :
    Activité : Doctorant & Ingénieur Statiaticien Economiste

    Informations forums :
    Inscription : Mars 2014
    Messages : 349
    Points : 1 009
    Points
    1 009
    Billets dans le blog
    8
    Par défaut
    Bonjour, je te propose une analyse factorielle.

    Tu utilises une méthode de partitionnement en deux classes (classification non hiérarchique) avec la PROC FASTCLUS. Tu fais ceci sur les données dont les classes ne sont pas connues. Donc la procédure va te permettre de répartir les individus en deux classes. Les méthodes de partitionnement sont meilleures à la CAH quand le nombre de classes est a priori connu. Ici on sait que c'est deux classes donc il serait mieux de faire recours au méthode de partitionnement.

    Puisque tu as fait ceci sur les données dont les classes ne sont pas connues, tu auras donc sur ces données, une variable classe (qui prend les valeurs classe 1 classe 2, c'est à dire ce que tu viens d'estimer) et tes variables quantitatives (la vingtaine dont tu disposais). Le problème est que, des deux classes, tu ne sais pas la classe qui correspond à la classe des données que tu connais... Mais c'est simple tu fais une analyse discriminante sur les données 2 (celles dont tu as estimés les classes) pour prédire les données 1 que tu connaissais, ou même une régression pour faire la prévision de ce que tu connaissais (données 1)... La classe à laquelle la majorité des données 1 seront affectées seront affectées, sera la classe 1 et l'autre la classe 2...

    ATTENTION Il faut être sûr que tes variables dont tu dispose sont liées aux classes sinon, les estimations seront biaisés......

    Cordialement,
    • Faites un tour sur mon siteweb professionnel www.aristideelysee.16mb.com Des codes dans la section "media et code" pouvant vous aider que vous pouvez aussi partager sur les réseaux sociaux.
    • Visiter mon blog en cliquant ici! Des techniques, astuces et macros pour l'analyse quantitative.

Discussions similaires

  1. [UML][PHP] retroconception en UML ... sans classes
    Par rebhihabib dans le forum UML
    Réponses: 15
    Dernier message: 02/04/2008, 15h56
  2. Réponses: 27
    Dernier message: 30/10/2007, 10h12
  3. [Jboss][ejb] fichier jar sans *.class
    Par apoca dans le forum Wildfly/JBoss
    Réponses: 3
    Dernier message: 11/05/2007, 17h16
  4. Réponses: 12
    Dernier message: 21/04/2006, 16h06
  5. Réponses: 3
    Dernier message: 18/10/2005, 21h14

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo