IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Interprétation ACP/ACM gros échantillon - FactomineR


Sujet :

R

  1. #1
    Candidat au Club
    Homme Profil pro
    en alternance
    Inscrit en
    Juillet 2017
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : en alternance
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juillet 2017
    Messages : 3
    Points : 3
    Points
    3
    Par défaut Interprétation ACP/ACM gros échantillon - FactomineR
    Bonsoir à tous,

    Je me permet de vous questionner par rapport à un sujet sur lequel je travaille depuis bientôt 6 mois. Je possède un tableau de données de 38000 lignes x 48 colonnes : 47 explicatives et une à expliquer.
    En vu d'une regression logistique, je réalise des ACM et ACP sur les données mais je ne vois pas les clés d'analyses permettant une sélectionne des variables explicatives qui pourraient jouer un rôle dans le modèle final. Je vois ai joint la représentation des variables lors d'une ACP engageant 14 des 47 variables explicatives (ma variable à expliquer en illustrative est en bleu sur la figure) et je sais pas comment sélectionner des variables plus importantes que d'autres grâce à ce graph..


    J'écoute toutes vos suggestions, j'ai également pensé à réaliser des tests de corrélations

    Bonne soirée.
    Images attachées Images attachées  

  2. #2
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2016
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mai 2016
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    Bonjour pad76520,
    Ce qui est dommage c'est que l'on ne vois pas la représentativité de ton axe vertical (image coupée).
    Ni le nombre de dimensions que tu as utilisé.
    Ce que j'aurai tendance à faire dans un premier temps, c'est de focaliser sur les variables ayant COS les plus proche de 1.
    Peut-être également regarder ce que donne les dimensions 3 et 4.

  3. #3
    Membre éclairé
    Homme Profil pro
    Chercheur
    Inscrit en
    Décembre 2015
    Messages
    327
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2015
    Messages : 327
    Points : 793
    Points
    793
    Par défaut
    Comment as-tu choisi les 14 variables actives parmi les 47 puisque en en choisissant 14, tu as déjà fait une sélection de variables. En tout cas, la variable à expliquer n'appartient pas au plan 1 x 2. Ce qu'il faudrait aussi pour l'interprétation ce sont les résultats complets de l'ACP, donc les coordonnées et les contributions des variables actives aux axes (res$var$coord et res$var$contrib) et les corrélation de la variable supplémentaires avec les axes (res$quanti.sup$cor).

    Quelques conseils empiriques issus de mon expérience :

    Nombre d'axes à conserver : l'un des meilleurs critères est celui du coude (Cattell) sur l'éboulis et celui à éviter, celui du pourcentage de variance expliquée même s'il est très populaire. Explication rapide et intuitive du pourquoi. Supposons 10 variables assez fortement corrélées. Disons que le critère du 80% et celui du coude donne 3 axes à conserver. Rajoutons, 90 variables de bruit blanc, le critère des 80% donnera alors de l'ordre de 60 à 70 dimensions à conserver alors que celui du coude restera autour des 3 dimensions.

    Façons empiriques de vérifier la sélection de variables par l'ACP
    - Comparer les ACP sans puis avec sélection : les résultats ne devraient pas trop différer, sauf éventuellement en ce qui concerne les axes intéressants selon les plans dans lesquels se trouve à la variable supplémentaire ;
    - Comparer les ACP avec la variable à expliquer comme variable supplémentaire puis comme variable active ; notamment les valeurs propres donnent une idée de la redondance d'information ; en effet, supposons que la variable à expliquer est une combinaison linéaire de variables actives, alors dans le cas où cette variable est active, la dernière valeur propre doit être proche de zéro.

Discussions similaires

  1. Réduction de dimensions via l'ACP, ACM ou AFDM
    Par ransou_mkhinini dans le forum Big Data
    Réponses: 0
    Dernier message: 01/11/2016, 17h13
  2. Test de normalité sur gros échantillons
    Par enicnath dans le forum SAS STAT
    Réponses: 2
    Dernier message: 02/12/2013, 10h04
  3. ACP AFC et pour l'ACM et CAH?
    Par tanaka59 dans le forum SAS STAT
    Réponses: 1
    Dernier message: 23/01/2013, 09h43
  4. ACM sous R + interprétation
    Par senderia dans le forum R
    Réponses: 3
    Dernier message: 28/01/2010, 21h36
  5. Réponses: 0
    Dernier message: 26/08/2009, 18h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo