Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 20/01/2012, 17h59   #1
Invité de passage
 
Femme
Étudiant
Inscription : janvier 2012
Messages : 1
Détails du profil
Informations personnelles :
Sexe : Femme
Localisation : France

Informations professionnelles :
Activité : Étudiant

Informations forums :
Inscription : janvier 2012
Messages : 1
Points : 0
Points : 0
Par défaut Proc GENMOD : ddl=0

Bonjour,

Nous avons un projet de statistique à faire en SAS. Dans une des questions, nous devons ajuster le modèle à l'aide de la proc Genmod en enlevant les variables non significatives (p-valeur > 5%).

Nous avons écrit:
Citation:
proc genmod data=Donnees;
class Region;
model Decouv = Age Region Mois Avoir/ dist = normal
link = identity
;
run;
Region étant une variable modale qui prend comme valeur : MP, B, L . Nous obtenons le tableau des "Paramètres estimés par l'analyse du maximum de vraisemblance":

Region : B ( DDL = 1, p-valeur = 0.1199)
L ( DDL = 1, p-valeur = <.0001)
MP ( DDL = 0, p-valeur = - )

Donc nous allons devoir enlever la variable B puis refaire une régression avec L et MP. Mais le ddl de MP est toujours 0 donc on ne sait pas si on ne comprend pas trop ce qu'il faut faire après.

Et aussi, on ne comprend pas trop ce que ça veut dire ddl = 0.

Merci pour votre réponse,
Cordialement,
phuphu est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/01/2012, 14h26   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 828
Points : 2 828
Bonjour.
Moi aussi j'ai une question : pourquoi une proc GENMOD ? Si c'est pour faire le modèle que tu décris, une proc GLM suffit (si DECOUV suit une loi normale).

Bon, à part ça, le sort des variables qualitatives dans un modèle. Pour bien comprendre, on va commencer tout simple, avec la variable SEXE qui vaut F ou M.
Code :
1
2
3
4
PROC GENMOD DATA=sashelp.class ;
  CLASS sex ;
  MODEL weight = sex / DIST=NORMAL LINK=IDENTITY ;
RUN ;
On obtient le tableau de coefficients suivant :
Code :
1
2
3
4
Parameter         DF    Estimate
Intercept          1    108.9500
Sex          F     1    -18.8389
Sex          M     0      0.0000
La dernière modalité par ordre alphabétique (M) a un coefficient forcé à zéro : c'est la modalité de référence. Comme ce choix est forcé, il n'y a pas de degré de liberté associé : DDL=0.
Ce choix est arbitraire. Si on codait la variable SEX autrement (2 pour filles et 1 pour les garçons), ce qu'on va montrer avec un format, on obtient un autre jeu de coefficients totalement équivalent au précédent.
Code :
1
2
3
4
5
6
7
8
9
10
PROC FORMAT ;
  VALUE $sexe
    "F"="2" "M"="1"
  ;
RUN ;
PROC GENMOD DATA=sashelp.class ;
  CLASS sex ;
  FORMAT sex $sexe. ;
  MODEL weight = sex / DIST=NORMAL LINK=IDENTITY ;
RUN ;
et le résultat
Code :
1
2
3
4
Parameter         DF    Estimate
Intercept          1     90.1111
Sex          1     1     18.8389
Sex          2     0      0.0000
Donc on peut choisir cette référence comme on veut, et ça n'a aucune incidence sur le modèle.

Vient ensuite la question de la significativité des coefficients. Le test de significativité (test de Wald dans la proc GENDMOD) a pour hypothèse nulle que le coefficient vaut zéro.
Dans le cas d'une variable quantitative, ça veut dire qu'elle a une pente nulle, donc aucune influence linéaire sur Y.
Dans le cas d'une modalité d'une variable qualitative, ça veut dire que l'écart avec la référence, en termes de moyennes de Y, est inexistant. Autrement dit, si on a un coefficient pour X=A non significatif, avec X=C comme référence, alors les moyennes de Y pour X=A et pour X=C sont tellement "proches" qu'elles sont statistiquement indiscernables.
Dans ce cas, si un tel regroupement a un sens "métier", on peut fusionner les deux modalités A et C en une seule. Et refaire ensuite le modèle.
Le risque c'est de sauter aux conclusions à la seule vue du tableau des coefficients : voir que A et C ne sont pas significativement différents, alors qu'en réalité, l'écart entre A et B est encore moins significatif (--> A et B devraient être fusionnés en priorité). Mais si C est la référence, rien dans le tableau de coefficients n'indique la significativité de l'écart entre A et B. Il faudrait choisir une de ces 2 modalités comme référence.

Le plus simple dans ce cas est d'utiliser l'instruction LSMEANS et son option DIFF. On aura ainsi toutes les comparaisons 2 à 2 de modalités. On fusionne les deux dont la p-value sera la plus élevée, à condition que cette fusion ait un sens (par exemple, si ce sont des CSP, on ne fusionnera pas "cadres" et "ouvriers" car la nouvelle catégorie serait difficile à justifier). Et on refait le modèle, et ainsi de suite, jusqu'à ce que toutes les p-values soient, soit en-dessous du seuil choisi à l'avance (tu évoques 5%), soit associées à des couples non fusionnables.

J'espère avoir répondu à tes interrogations.
Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/01/2012, 18h02   #3
Futur Membre du Club
 
Inscription : décembre 2009
Messages : 105
Détails du profil
Informations forums :
Inscription : décembre 2009
Messages : 105
Points : 17
Points : 17
Bonjour phuphu,

D'abord comme dit olivier, je ne comprend pas pourquoi une proc GENMOD? Une proc GLM suffit tout simplement.
De plus, je ne comprend pas vraiment votre question... Pouvez vous être un peu plus clair svp?

En tout cas bonne chance
Merci.
bsangoku est déconnecté   Envoyer un message privé Réponse avec citation 11
Vieux 22/01/2012, 12h22   #4
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 150
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 150
Points : 1 772
Points : 1 772
Bonjour, je rejoins les commentaires de bsangoku.

Merci de nous preciser quel est l'objectif escompte. En fonction de cela il y aura peut etre moyen de t'aider sur le choix de la syntaxe, et t'aider a la comprehension de to sortie sas.

Citation:
nous devons ajuster le modèle à l'aide de la proc Genmod en enlevant les variables non significatives
Region étant une variable modale qui prend comme valeur : MP, B, L
Donc nous allons devoir enlever la variable B
Attention a ne pas confondre variable et categorie.
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 03h03.


 
 
 
 
Partenaires

Hébergement Web