Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 20/09/2011, 15h01   #1
Invité de passage
 
Inscription : février 2005
Messages : 12
Détails du profil
Informations forums :
Inscription : février 2005
Messages : 12
Points : 3
Points : 3
Par défaut npar1way vs GLM :résultats différents

Bonjour,

Je trouve parfois des conclusions qui se contredisent selon que j'utilise Npar1way ou GLM (
code du type

Code :
1
2
3
4
PROC GLM;
class variable_classe;
model variable_quanti = variable_classe;
RUN;
).

Est-il possible de construire des exemples fictifs illustratifs permettant d'expliquer ces différences (en mettant en défaut les hypothèses sous-jacentes à GLM ?) J'ai essayé, sans succès.

Merci !
jlp65 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 20/09/2011, 15h14   #2
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 145
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 145
Points : 1 763
Points : 1 763
As tu compris la difference, d'un point de vue statistique, entre ces deux procedures?

Cela me semble un prerequis important avant de passer a du code sas...
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/09/2011, 10h34   #3
Invité de passage
 
Inscription : février 2005
Messages : 12
Détails du profil
Informations forums :
Inscription : février 2005
Messages : 12
Points : 3
Points : 3
Ben ... à peu près ! La procédure Npar1Way compare les positions des valeurs de la variable expliquée en fonction des modalités de la classe (en se basant sur les rangs) : à l'extrême, si la variable prend les modalités 1 2 3 pour var_classe = 0 et 4 5 6 pour var_classe = 1, la procédure conclura à la significativité de la variable classe pour expliquer la variable ... expliquée.

GLM, quant à lui, compare les moyennes entre les différents groupes et la validité de son test est plus ou moins liée à des hypothèses de normalité et d'homoscédasticité.

Mais j'ai du mal à construire des exemples simples qui expliquent les différences de résultats. J'essaie par exemple de construire des données avec des moyennes différentes entre les groupes mais où les groupes sont imbriqués, mais GLM me dit que les moyennes ne sont pas significativement différentes (et Npar1Way va dans le même sens en indiquant la non-significativité de la variable classe)
jlp65 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/09/2011, 13h15   #4
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 145
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 145
Points : 1 763
Points : 1 763
Citation:
GLM, quant à lui, compare les moyennes entre les différents groupes et la validité de son test est plus ou moins liée à des hypothèses de normalité et d'homoscédasticité.
Plus ou moins? Pas tres rigoureux tout ca...

Proc GLM realise une modelisation parametrique, proc NPAR1way une modelisation non parametrique. Les resultats seront donc differents. Dans la proc NPAR1WAY, tu as le choix parmi un panel de tests non parametriques.

Bon courage,

Manoutz
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 21/09/2011, 16h51   #5
Invité de passage
 
Inscription : février 2005
Messages : 12
Détails du profil
Informations forums :
Inscription : février 2005
Messages : 12
Points : 3
Points : 3
Ma mention "plus ou moins" faisait référence à la robustesse du test de GLM : d'après ce que j'ai lu, le test fonctionne correctement même si les hypothèses requises ne sont pas rigoureusement vérifiées

J'avais bien compris que Npar1Way était un test non paramétrique à l'inverse de GLM. Ce que j'aurais voulu savoir, c'était comment expliquer, interpréter les différences dans les conclusions lorsqu'elles se présentent : on a un peu de mal à comprendre que , si les moyennes sont significativement différentes d'un groupe à l'autre (test GLM), alors on peut avoir tout de même les données des groupes "mélangées" (test Npar1Way) - et inversement. C'est pourquoi je cherchais à construire des données permettant d'appréhender ce phénomène
jlp65 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/09/2011, 21h29   #6
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 828
Points : 2 828
Bonsoir.
Pour faire court, NPAR1WAY compare des médianes et GLM des moyennes. (Pas taper Manoutz, j'ai dit que je voulais faire court.)
Tu dois pouvoir construire un jeu de données avec un individu atypique dans un des groupes, pas dans l'autre, et du coup des moyennes différentes mais des médianes semblables.
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
DATA work.test ;
  INPUT gpe $ y ;
  DO i=1 TO 4 ;
    OUTPUT ;
  END ;
DATALINES ;
A 10
A 10
A 9
A 10
A 10
A 9
A 10
A 9
B 10
B 10
B 1200
B 10
B 9
B 10
B 9
;
RUN ;
PROC GLM DATA=work.test ;
  CLASS gpe ;
  MODEL y = gpe ;
  LSMEANS gpe ;
RUN ; QUIT ;
PROC NPAR1WAY DATA=work.test WILCOXON ;
  CLASS gpe ;
  VAR y ;
RUN ;
Et quand on parle de la robustesse de GLM face aux hypothèses, il s'agit principalement des variances intra-groupes égales (elles peuvent un peu différer) et la normalité (une distribution assez symétrique peut suffire).
Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 22/09/2011, 09h41   #7
Invité de passage
 
Inscription : février 2005
Messages : 12
Détails du profil
Informations forums :
Inscription : février 2005
Messages : 12
Points : 3
Points : 3
Merci beaucoup pour ces indications précieuses, Olivier ! Il me semble, par ailleurs, que l'utilisation de Npar1way est réservée à un jeu de données suffisamment important (test asymptotique)
jlp65 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 22/09/2011, 10h53   #8
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 828
Points : 2 828
Sur de gros volumes ? Je ne sais pas, j'ai entendu tout et son contraire à ce propos.
Quand j'étais étudiant, on me parlait de tests non paramétriques pour de petits effectifs. J'en vois parfois utilisés sur ce raisonnement dans les labos pharma et la recherche, quand il s'agit de quelques bestioles en vrac sur lesquelles on teste des traitements.
L'argument "asymptotique ==> gros effectifs" pourrait aussi s'appliquer à l'analyse de variance, où tous les tests sont aussi asymptotiques. Les variantes exactes (= obtenues par combinatoire et simulations de Monte-Carlo) sont plutôt à chercher dans les procédures non paramétriques (FREQ, NPAR1WAY) et plus rarement dans les autres (il y en a dans LOGISTIC).
Pour moi, le non-paramétrique serait plutôt un recours pour le cas où on ne peut pas se ramener aux hypothèses du modèle paramétrique, en échange de quoi on perd en précision dans le commentaire (oui il y a une différence mais on ne peut pas la quantifier précisément).

Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 22/09/2011, 11h53   #9
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 145
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 145
Points : 1 763
Points : 1 763
Effectivement il arrive que l'on passe par du non parametrique sur de petits echantillons en pharma.

je rejoins egalement Olivier sur le choix d'utilisation du non parametrique. Les proprietes ne sont pas aussi "fines" que le parametrique.

Et justement qui dit petit echantillon, dit sensibilite du test - ou de la methode de controle, d'une maniere generale - lorsqu'une seule petite bebete a un comportement legerement deviant par rapport aux autres..
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 18h43.


 
 
 
 
Partenaires

Hébergement Web