Utilisation test paramétrique ou non paramétrique

**mathis86** · 19/03/2012, 10h38

Bonjour,

Une simple question. Pour pouvoir utiliser un test paramétrique, il faut en principe que l’échantillon soit supérieur à 30 ou que la variable suive une distribution normale? Quant est-il réellement quand l'échantillon est supérieur à 30 mais que la variable n'est pas normalement distribuée? Dans beaucoup d'article que je lis, dès que l'effectif est suffisamment grand, on ne vérifie pas la normalité de la distribution des variables et on applique directement des tests paramétrique. Qu'elle est la meilleure façon de faire?
MERCI!

**frajen** · 19/03/2012, 13h40

Bonjour,

En effet, dès que l'on dispose d'un échantillon suffisamment grand (en général on le considère grand à partir de 30) on ne vérifie pas la normalité. Ceci est dû au fait que la distribution peut être approximer par une loi Normale.
De ce fait, on peut utiliser les tests qui requierent la normalité directement sans tester celle-ci auparavant.

Cordialement,
Jérémy NOEL
Consultant Support SAS

**fafabzh6** · 19/03/2012, 13h45

Pour être plus précis, je dirais que c'est la distribution de l'estimateur du paramètre estimé qui est considérée comme suivant une distribution normale et non la distribution de la variable qui suit une loi normale ... après tout dépend des tests mais souvent la distribution de la variable est considérée comme inconnue.
La confusion est souvent faite ... c'est pour cela que je précise cette notion!

**olivier.decourt** · 19/03/2012, 14h11

Bonjour.
Il y a à mon avis un gros contresens fait autour de l'approximation normale, et surtout du théorème central limite (TCL) qui sert de prétexte, dès qu'on a quelques dizaines d'observations, pour sauter la vérification de normalité.
Comme l'indique Fabrice, le TCL nous indique que la moyenne d'une population se distribue comme une loi normale quand on a un effectif "assez grand". Le TCL ne dit rien de la population.
Si tu as un montant, par exemple, il est par nature asymétrique. Il suit une loi log-normale ou Gamma, et même avec 100 000 observations, ça ne ressemblera jamais à une loi normale. Idem si tu as une distribution binaire : ce sera une loi de Bernoulli, jamais une normale, même avec 3 milliards d'individus ! C'est pour cela que les modèles linéaires généralisés ont été inventés, d'ailleurs.
Donc l'argument soufflé par Jérémy, qui a généralement cours, est à mon avis totalement faux.

Si on revient au besoin que tu exprimes (test NP ou pas), je suppose qu'il s'agit d'un test de comparaison de moyennes type Student/ANOVA, versus un test NP type Wilcoxon/Kruskal-Wallis.
Si tu as une variable asymétrique, et une centaine de sujets, tu décides de comparer des moyennes (avec l'argument de Jérémy) : tu compares des nombres qui ne résument pas la distribution car ils ne se trouvent pas au centre ! Les médianes sont de bien meilleurs indications dans ce cas, car elles se trouvent au coeur de la distribution, sans subir les déformations des valeurs extrêmes. Donc pour des variables asymétriques non transformées, j'utiliserais plutôt un test NP. Pour des variables à distribution symétrique, même si la normalité n'est pas exactement avérée (ça devient difficile à partir d'une centaine d'observations d'avoir des p-values fortes au test de Kolmogorov-Smirnov par exemple), je prendrais quand même une comparaison de moyennes car là, on tient une comparaison qui rend bien les distributions.
Donc l'étude de la distribution, normalité crédible ou pas, est à mes yeux essentielle, quelle que soit l'analyse prévue ensuite (modèle, test) et quel que soit la volumétrie de données.

Bon courage.
Olivier

**fafabzh6** · 19/03/2012, 14h21

Je plussoie totalement l'avis d'Olivier sur l'interprétation erronée et plus qu'abusive du TCL!!
Je le rejoins aussi sur l'utilisation des tests NP : n'oubliez pas de tester la distribution de vos données avant de faire vos tests statistiques ... pour éventuellement les transformer (et ainsi pouvoir utiliser des tests paramétriques)!

**mathis86** · 26/03/2012, 17h26

bonjour

après une petite absence, je reviens enfin! Je constate le nombre de réponses et je vous remercie chacun pour votre aide. Merci Olivier, tu confirme ce que je pensais. En résumée, avant l’utilisation d'un quelconque test de comparaison de moyenne il faut étudier la distribution de la variable via un test de Kolmogorov-Smirnov mais surtout faire un représentation graphique de la distribution de la variable (représentation de l'histogramme avec éventuellement la superposition de la courbe de la loi normale)

**olivier.decourt** · 26/03/2012, 17h54

Oui, et un QQ-plot en plus de l'histogramme + courbe de densité normale (parfois les effets de tranche de l'histogramme déforment la vision qu'on a de la normalité).
Attention avec le test de KS : on teste le + grand écart entre la loi théorique et la normalité (en distribution cumulée), donc le moindre écart, même ponctuel, entraîne une p-value faible !

**mathis86** · 28/03/2012, 10h32

très bien merci!

Voici un exemple de variable que j'ai étudié avec en pj les courbes de normalité. J'ai une petite hésitation quand à la conclusion. Le test de K.S conclue à la non normalité. En vue des graphiques peut-on conclure la même chose?

**olivier.decourt** · 28/03/2012, 10h55

A mon avis, tu peux trouver une assez grande proximité avec la loi normale : l'asymétrie existe mais elle n'est pas très marquée, le QQ-plot est plutôt très beau. Comparer des moyennes ne me choque pas vu la faible asymétrie de la distribution.
Quant à KS, c'est un test tellement ronchon qu'il vaut souvent mieux ne pas l'écouter, sinon on n'aura aucune loi normale (sauf avec 30 observations et encore).

**mathis86** · 28/03/2012, 12h03

Merci pour tes précieux conseils!!

Utilisation test paramétrique ou non paramétrique

SAS STAT

Discussions similaires

Partager

Partager