Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 08/02/2011, 08h38   #1
Invité de passage
 
Inscription : janvier 2011
Messages : 4
Détails du profil
Informations forums :
Inscription : janvier 2011
Messages : 4
Points : 1
Points : 1
Par défaut Proc Logistic : interprétation des résultats

Bonjour à tous!

Je vous écrit car je suis débutant en SAS mais aussi en Regréssion logistique.

J'ai effectué la regression suivante:

Citation:
proc logistic data=Data2000;
model Q17= reg sex;
run;
Q17 représente:

temps plein=1
temps partiel=2

Sex
Homme=1
Femme=2

Reg
Région1
Région2
Région3

Les hommes ont tendance à être plus à temps plein (90% de temps plein) que les femmes (60% de temps plein).

Mais le résultat donne ceci.

Citation:
Analysis of Maximum Likelihood Estimates
Parameter---DF--Estimate--Standard Error--Wald Chi-Square--Pr > ChiSq
Intercept---1----(4.5858)--0.0655----------4903.6177---------<.0001
Reg---------1----(0.0909)--0.0192----------22.4032-----------<.0001
Sex---------1---(-2.0313)--0.0269----------5707.9135---------<.0001
J'ai un poids de (-2.03) pour le sexe. Hors je m'attendais à un signe positif étant donné que "plus on est homme, plus on est à temps plein".

Est-ce que quelqu'un saurait me guider vers la solution ou l'interprétation des résultats? Parce que je rame pas mal...

Merci

Jean-François
jean003 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 09h48   #2
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Il faudrait préciser dans ton modèle, quelles sont les variables qualitatives et event=1 ou 2 selon la modalité que tu veux modéliser (dans l'exemple Q17=1).

Code :
1
2
3
4
proc logistic DATA=Data2000;
class sex reg;
model Q17(event=1) reg sex;
run;
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 10h18   #3
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Pour compléter la réponse de Brice :
  • Dans la syntaxe EVENT=, la valeur est entre guillemets (c'est la valeur formatée)
  • pour les variables qualitatives (sexe et région), tu peux ajouter l'option PARAM=GLM pour que les sorties soient plus claires
Code :
1
2
3
4
proc logistic DATA=Data2000;
class sex reg / PARAM=GLM ;
model Q17(event="1") = reg sex;
run;
Avec ton premier programme, SAS avait compris les choses suivantes :
  1. que tu modélisais Q17=1 (il y a un message au début des sorties, qui commence par "Probability modeled is ...")
  2. que les variables sexe et région étaient quatitatives -- donc les coefficients que tu obtenais correspondaient à une augmentation d'1 unité. Pour SEXE, ça correspond au changement homme --> femme. Ton modèle avec le coefficient négatif est donc correct : il dit qu'une femme a moins de chances que Q17=1 qu'un homme.
Les sorties seront, j'espère, plus faciles à comprendre avec les petites options ci-dessus.
Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2011, 12h17   #4
Invité de passage
 
Inscription : janvier 2011
Messages : 4
Détails du profil
Informations forums :
Inscription : janvier 2011
Messages : 4
Points : 1
Points : 1
Merci beaucoup de vos réponses. Ca m'aide énormément.

Veuillez m'excuser pour mes questions de débutants.

Voici les résultats:

Analysis of Maximum Likelihood Estimates

Parameter-----------DF-Estimate-Standard Error-WaldChi-Square-Pr > ChiSq

Intercept-----------1---0.9446---0.0605---------244.1650------<.0001
Age De 20 à 24 ans--1 --0.4860---0.0631---------59.2648-------<.0001
Age De 25 à 29 ans--0--0--------.---------------.--------------.
Reg 1---------------1---0.00377--0.1024---------0.0014---------0.9706
Reg 2---------------1---0.4306----0.0668--------41.5700--------<.0001
Reg 3---------------0---0---------.---------------.--------------.
Sex 1---------------1---1.4547----0.0680--------457.8409-------<.0001
Sex 2---------------0---0----------.--------------.---------------.

Cette fois j'ai ajouté l'âge en plus.
Comme prévu, le sex=1 (hommes) a plus de chances d'être à temps plein (Q17=1).
Dans le même sens, la région 2 à plus de chances d'être en temps plein que la région 3 mais on ne peut pas conclure à des résultats significatifs entre la région 1 et la région 3. C'est bien ça? Ou bien cela veut dire qu'il n'y a pas plus de chance d'être en temps plein dans la région 1 que dans la région 3?

Autre chose, j'aimerais effectuer le même test mais avec une variable continue à la place de Q17 qui est binaire.
Lorsque je le fait, il est marqué (au début des sorties) qu'il applique le model "cumulative logit" et que "Probabilities modeled are cumulated over the lower Ordered Values."

Puis-je faire appliquer la proc logistique dans ce cas là?
jean003 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2011, 13h53   #5
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Salut Jean.
Pour les résultats du modèle, tes interprétations sont les bonnes.
Citation:
on ne peut pas conclure à des résultats significatifs entre la région 1 et la région 3. C'est bien ça? Ou bien cela veut dire qu'il n'y a pas plus de chance d'être en temps plein dans la région 1 que dans la région 3?
Tes deux phrases sont exactes pour décrire les sorties. La proportion de temps pleins n'est pas significativement différente entre les régions 1 et 3, à âge et sexe égaux.

Pour une variable quanti (le nombre d'heures travaillées par mois, par exemple), la régression logistique ne peut pas s'appliquer. Elle est réservée aux variables à expliquer qui sont qualitatives (le plus souvent binaires ; des modèles plus complexes sont envisageables mais avec des sorties assez difficiles à résumer si tu as plus de 2 valeurs, qu'elles s'ordonnent ou pas).
Avec une variable à modéliser quantitative, tout dépend de sa distribution : si elle suit à peu près une loi normale, tu fais une régression linéaire classique (procédure GLM). Sinon, tu peux utiliser une autre loi comme Gamma et la procédure GENMOD.

Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2011, 14h42   #6
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
1-Tu peux toute fois rajouter la méthode de sélection de tes variables (selection=backward). Tu obtiendras par la suite que des variables siginificatives.
2- tester ta nullité simultané de toutes tes variables dans le modèle (à priori ce test est ok)

3- Tester la capacité de prédiction de ton modèle en comparant les estimations et les observés (indice de gini).
Ceci te permettra de comparer deux modèles par exemple en découpant l'âge d'une autre façon.
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 07h46.


 
 
 
 
Partenaires

Hébergement Web