Bonjour,
je suis actuellement en stage et je dois faire une analyse statistique sur R qui
me pose quelques problèmes car mes cours sont un peu loin...
En fait j'ai 95 variables et 320 individus. Je voudrais trouver les variables qui sont corrélées pour en supprimer certaines et ensuite obtenir un fichier qui n'ait que des variables non corrélées. Du coup j'ai essayé d'utiliser la fonction correlation matrix de Rcmdr qui donne donc une formule du type:
cor(H[,c("ALIM","CellMultipare","CellPrimipare")], use="complete.obs")
Or, je voulais aussi avoir la p-value car ma maître de stage m'a dit que l'on ferait les choix sur la p-value et non sur le coeff de correlation (est-ce que cela est plus judicieux ?).
Du coup, j'ai utilisé ce type de fonction:
rcorr.adjust(H[,c("ALIM","CellMultipare","CellPrimipare")], type="pearson")
mais cela me donne 2 p-value : la 1e est une pairwise p-value et la 2e est la pairwide p-value mais ajustée (par la méthode Holm). Je n'arrive pas à comprendre la différence et ce que signifient ces 2 p-values, laquelle il vaut mieux utiliser et pourquoi...
J'avais aussi pensé à utiliser une régression linéaire simple mais je ne veux pas faire la manip 97^97 fois... et pour moi, la régression linéaire multiple ne correspond pas à ce que je cherche.
J'avais pensé à une corrélation partielle car je pense que ça m’éviterait de faire des choix quant aux variables à retirer mais je n'ai pas la p-value non plus...
Bref je galère...
J'espère avoir été suffisamment claire.
Merci d'avance pour votre aide!
Partager