IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

CAH - Arbre de décision - R


Sujet :

R

  1. #1
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Mai 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Mai 2014
    Messages : 5
    Points : 7
    Points
    7
    Par défaut CAH - Arbre de décision - R
    Bonjour,

    J'ai un jeu de données de 23000 individus *34 variables, j'ai d'abord réduit le nombre de mes variables (=12) et j'ai pris un échantillon de 7000 individus pour pouvoir faire une CAH sur R. Mon échantillon est parfaitement représentatif de la population, cependant je me pose certaines questions.
    - Pourrais-je obtenir un arbre de décision similaire pour plusieurs échantillons tirés ?
    - Ma taille d'échantillon est-elle "bonne" ? (j'ai pris environ 30% de mon jeu)
    - Comment pourrais-je placer mes individus de tout mon jeu de données dans mes classes créées grâce à la CAH ?



    Cordialement.

  2. #2
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    - Ça dépend entièrement de ton jeu de données : dans certains cas, il est très facile de faire des groupes, dans d'autres cas on a une certaine "continuité" (un "gradient" sur une ou plusieurs dimensions) donc on peut faire des groupes, mais ils sont un peu arbitraires, dans d'autres cas on n'arrive pas du tout à faire des groupes exploitables.
    - Là encore, ça dépend de tes données et de ce que tu veux en faire.
    - Avec la fonction cutree.

    Sur ce genre de jeu de données, je te conseille avant tout de faire une ACP pour voir si une structure ressort.

  3. #3
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Mai 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Mai 2014
    Messages : 5
    Points : 7
    Points
    7
    Par défaut
    Merci de m'avoir répondu

    Mon jeu de données est composé essentiellement de données quantitatives, j'ai donc d'abord fait une ACP.
    J'ai pu lire, avec un volume de données assez conséquent, qu'on ne peut pas lire grand chose des graphs sur nos individus (sauf voir ceux extrêmes/atypiques). Par contre, je vois bien les corrélations entre les variables.

    J'obtiens des arbres de décisions assez similaires (avec des critères de décisions similaires, mais pas les mêmes règles). Je ne sais donc pas comment généraliser tout ça. Faut-il que j'augmente (/diminue) ma taille d'échantillon? Y a-t-il un lien avec celle-ci?

  4. #4
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Perso, pour ce genre de problème, je faiS la classification sur l'ensemble des données, je ne faiS des échantillons (bootstrap) que pour vérifier que les groupes sont stables.

  5. #5
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Mai 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Mai 2014
    Messages : 5
    Points : 7
    Points
    7
    Par défaut
    Je prends un échantillon parce que je ne peux pas faire sur R une classification sur un jeu de données aussi volumineux (pour R).
    Je suis en stage et je n'ai pas une machine assez performante pour ça. (Pas assez de mémoire vive).

  6. #6
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Je comprends, j'ai le même soucis, faire du R avec un OS 32 bits c'est pas top
    Le plus simple ça reste de te faire prêter un ordi avec un OS 64 bits le temps de faire tourner ce script.

  7. #7
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 016
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 016
    Points : 23 705
    Points
    23 705
    Par défaut
    Citation Envoyé par Theta Voir le message
    Le plus simple ça reste de te faire prêter un ordi avec un OS 64 bits le temps de faire tourner ce script.
    Ou de le faire tourner sur un serveur disponible...
    Rédacteur / Modérateur SGBD et R
    Mes tutoriels et la FAQ MySQL

    ----------------------------------------------------
    Pensez aux balises code et au tag
    Une réponse vous a plu ? N'hésitez pas à y mettre un
    Je ne réponds pas aux questions techniques par message privé, les forums sont là pour ça

Discussions similaires

  1. Programme arbre de décision
    Par jeremy_d dans le forum C#
    Réponses: 2
    Dernier message: 30/05/2008, 10h13
  2. [Livre] Arbres de décision
    Par Hedidams dans le forum Statistiques, Data Mining et Data Science
    Réponses: 1
    Dernier message: 14/05/2008, 23h44
  3. Arbre de décision dans un formulaire
    Par denis76000 dans le forum VBA Access
    Réponses: 2
    Dernier message: 15/04/2008, 23h07
  4. arbres de décision
    Par hassiba_45 dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 05/12/2007, 12h59
  5. arbre de décision
    Par lamia_01 dans le forum XML/XSL et SOAP
    Réponses: 1
    Dernier message: 11/07/2006, 16h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo