Bonjour à tous,
Je suis chargé de réaliser une typologie (avec le logiciel R) à partir d'une base de données recensant 405 individus et près de 150 variables (la grande majorité sont de nature quantitative).
J'ai pour optique d'isoler les variables quantitatives et ainsi réaliser une ACP avec en variables supplémentaires les quelques variables quali intéressantes.
En premier lieu je me pose cette question :
- Est-il préférable de sélectionner les indicateurs pertinents avant de réaliser l'ACP ou au contraire il vaut mieux lancer l'ACP sur toutes les variables quanti (110 variables) ?
Pour l'instant j'ai opté pour la deuxième solution à savoir faire tourner l'ACP sur toute la base et retenir les k composantes principales (où la valeur propre est > 1 ce qui correspond à 29 CP : 75% inertie). Je retire les dernières composantes correspondant au "bruit statistique". Effectivement, j'ai appris qu'il était dans notre intérêt de garder un maximum de variables pour perdre le moins d'information possible...
Mais dans ce cas, j'ai des doutes sur l'interprétation de cette ACP ... ne perd t-elle pas du sens ?
Comment l'interpréter ? Caractériser uniquement le premier plan factoriel (celui-ci représente que 21% de l'inertie) ? De plus avec autant de variables certaines sorties deviennent illisibles (notamment le cercle des corrélations).
(Au vu de la matrice des corrélations, mes variables présentent quelques corrélations entre elles)
Je comptais par la suite lancé ma CAH sur les 29 composantes principales retenus précédemment.
Si quelqu'un peut éclairer ma lanterneje suis tout ouïe !
Cordialement
Partager