IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS STAT Discussion :

Utilisation test paramétrique ou non paramétrique


Sujet :

SAS STAT

  1. #1
    Membre du Club
    Femme Profil pro
    etudiante stagiaire en recherche clinique
    Inscrit en
    Avril 2011
    Messages
    114
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : etudiante stagiaire en recherche clinique
    Secteur : Santé

    Informations forums :
    Inscription : Avril 2011
    Messages : 114
    Points : 64
    Points
    64
    Par défaut Utilisation test paramétrique ou non paramétrique
    Bonjour,


    Une simple question. Pour pouvoir utiliser un test paramétrique, il faut en principe que l’échantillon soit supérieur à 30 ou que la variable suive une distribution normale? Quant est-il réellement quand l'échantillon est supérieur à 30 mais que la variable n'est pas normalement distribuée? Dans beaucoup d'article que je lis, dès que l'effectif est suffisamment grand, on ne vérifie pas la normalité de la distribution des variables et on applique directement des tests paramétrique. Qu'elle est la meilleure façon de faire?
    MERCI!

  2. #2
    Membre habitué

    Homme Profil pro
    Consultant Support Client SAS
    Inscrit en
    Mai 2011
    Messages
    94
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine et Marne (Île de France)

    Informations professionnelles :
    Activité : Consultant Support Client SAS
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2011
    Messages : 94
    Points : 180
    Points
    180
    Par défaut
    Bonjour,

    En effet, dès que l'on dispose d'un échantillon suffisamment grand (en général on le considère grand à partir de 30) on ne vérifie pas la normalité. Ceci est dû au fait que la distribution peut être approximer par une loi Normale.
    De ce fait, on peut utiliser les tests qui requierent la normalité directement sans tester celle-ci auparavant.

    Cordialement,
    Jérémy NOEL
    Consultant Support SAS

  3. #3
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Pour être plus précis, je dirais que c'est la distribution de l'estimateur du paramètre estimé qui est considérée comme suivant une distribution normale et non la distribution de la variable qui suit une loi normale ... après tout dépend des tests mais souvent la distribution de la variable est considérée comme inconnue.
    La confusion est souvent faite ... c'est pour cela que je précise cette notion!
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  4. #4
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Bonjour.
    Il y a à mon avis un gros contresens fait autour de l'approximation normale, et surtout du théorème central limite (TCL) qui sert de prétexte, dès qu'on a quelques dizaines d'observations, pour sauter la vérification de normalité.
    Comme l'indique Fabrice, le TCL nous indique que la moyenne d'une population se distribue comme une loi normale quand on a un effectif "assez grand". Le TCL ne dit rien de la population.
    Si tu as un montant, par exemple, il est par nature asymétrique. Il suit une loi log-normale ou Gamma, et même avec 100 000 observations, ça ne ressemblera jamais à une loi normale. Idem si tu as une distribution binaire : ce sera une loi de Bernoulli, jamais une normale, même avec 3 milliards d'individus ! C'est pour cela que les modèles linéaires généralisés ont été inventés, d'ailleurs.
    Donc l'argument soufflé par Jérémy, qui a généralement cours, est à mon avis totalement faux.

    Si on revient au besoin que tu exprimes (test NP ou pas), je suppose qu'il s'agit d'un test de comparaison de moyennes type Student/ANOVA, versus un test NP type Wilcoxon/Kruskal-Wallis.
    Si tu as une variable asymétrique, et une centaine de sujets, tu décides de comparer des moyennes (avec l'argument de Jérémy) : tu compares des nombres qui ne résument pas la distribution car ils ne se trouvent pas au centre ! Les médianes sont de bien meilleurs indications dans ce cas, car elles se trouvent au coeur de la distribution, sans subir les déformations des valeurs extrêmes. Donc pour des variables asymétriques non transformées, j'utiliserais plutôt un test NP. Pour des variables à distribution symétrique, même si la normalité n'est pas exactement avérée (ça devient difficile à partir d'une centaine d'observations d'avoir des p-values fortes au test de Kolmogorov-Smirnov par exemple), je prendrais quand même une comparaison de moyennes car là, on tient une comparaison qui rend bien les distributions.
    Donc l'étude de la distribution, normalité crédible ou pas, est à mes yeux essentielle, quelle que soit l'analyse prévue ensuite (modèle, test) et quel que soit la volumétrie de données.

    Bon courage.
    Olivier
    Bon courage.
    Olivier

  5. #5
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Je plussoie totalement l'avis d'Olivier sur l'interprétation erronée et plus qu'abusive du TCL!!
    Je le rejoins aussi sur l'utilisation des tests NP : n'oubliez pas de tester la distribution de vos données avant de faire vos tests statistiques ... pour éventuellement les transformer (et ainsi pouvoir utiliser des tests paramétriques)!
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  6. #6
    Membre du Club
    Femme Profil pro
    etudiante stagiaire en recherche clinique
    Inscrit en
    Avril 2011
    Messages
    114
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : etudiante stagiaire en recherche clinique
    Secteur : Santé

    Informations forums :
    Inscription : Avril 2011
    Messages : 114
    Points : 64
    Points
    64
    Par défaut
    bonjour

    après une petite absence, je reviens enfin! Je constate le nombre de réponses et je vous remercie chacun pour votre aide. Merci Olivier, tu confirme ce que je pensais. En résumée, avant l’utilisation d'un quelconque test de comparaison de moyenne il faut étudier la distribution de la variable via un test de Kolmogorov-Smirnov mais surtout faire un représentation graphique de la distribution de la variable (représentation de l'histogramme avec éventuellement la superposition de la courbe de la loi normale)

  7. #7
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Oui, et un QQ-plot en plus de l'histogramme + courbe de densité normale (parfois les effets de tranche de l'histogramme déforment la vision qu'on a de la normalité).
    Attention avec le test de KS : on teste le + grand écart entre la loi théorique et la normalité (en distribution cumulée), donc le moindre écart, même ponctuel, entraîne une p-value faible !
    Bon courage.
    Olivier

  8. #8
    Membre du Club
    Femme Profil pro
    etudiante stagiaire en recherche clinique
    Inscrit en
    Avril 2011
    Messages
    114
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : etudiante stagiaire en recherche clinique
    Secteur : Santé

    Informations forums :
    Inscription : Avril 2011
    Messages : 114
    Points : 64
    Points
    64
    Par défaut
    très bien merci!

    Voici un exemple de variable que j'ai étudié avec en pj les courbes de normalité. J'ai une petite hésitation quand à la conclusion. Le test de K.S conclue à la non normalité. En vue des graphiques peut-on conclure la même chose?
    Images attachées Images attachées   

  9. #9
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    A mon avis, tu peux trouver une assez grande proximité avec la loi normale : l'asymétrie existe mais elle n'est pas très marquée, le QQ-plot est plutôt très beau. Comparer des moyennes ne me choque pas vu la faible asymétrie de la distribution.
    Quant à KS, c'est un test tellement ronchon qu'il vaut souvent mieux ne pas l'écouter, sinon on n'aura aucune loi normale (sauf avec 30 observations et encore).
    Bon courage.
    Olivier

  10. #10
    Membre du Club
    Femme Profil pro
    etudiante stagiaire en recherche clinique
    Inscrit en
    Avril 2011
    Messages
    114
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : etudiante stagiaire en recherche clinique
    Secteur : Santé

    Informations forums :
    Inscription : Avril 2011
    Messages : 114
    Points : 64
    Points
    64
    Par défaut
    Merci pour tes précieux conseils!!

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Test non paramétrique de comparaison de médianes
    Par alers dans le forum SAS STAT
    Réponses: 6
    Dernier message: 17/07/2018, 15h11
  2. Réponses: 7
    Dernier message: 17/06/2015, 12h01
  3. Réponses: 2
    Dernier message: 07/01/2013, 15h46
  4. Réponses: 3
    Dernier message: 24/05/2012, 15h58
  5. segmentation d'image non paramétrique avec un noyau gaussien..?
    Par Imène_23 dans le forum Traitement d'images
    Réponses: 0
    Dernier message: 20/03/2011, 20h48

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo