Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 20/10/2011, 17h05   #1
Invité de passage
 
Inscription : août 2009
Messages : 4
Détails du profil
Informations forums :
Inscription : août 2009
Messages : 4
Points : 0
Points : 0
Par défaut Modèle logistique marginal avec estimation GEE - variables explicatives continues

Bonjour à tous,

Je souhaite réaliser un modèle logistique marginal avec une estimation GEE.

Ma variable à expliquer suit une loi binomiale, et la plupart des variables explicatives sont continues. De plus, chaque sujet a 1 ou 2 mesures simultanées des paramètres explicatifs, d'où la prise en compte nécessaire de la corrélation intra-individuelle (il ne s'agit pas de mesures longitudinales).

Pour ce faire, nous avons opté pour une proc GENMOD avec option repeated, chaque individu définissant un cluster.

Mon principal souci (pour le moment), est la vérification de la linéarité de mes covariables continues avec la variable explicative ! En effet, si j'ai bien compris, la proc GENMOD ne se basant pas sur le calcul du maximum de vraisemblance, je ne peux donc pas utiliser la méthode que j'utilisais avec une proc logistic dans le cadre d'une régression logistique "classique", à savoir la comparaison des modèles (variable catégorielle issue de la continue, analysée en continu puis en catégories) par le test du rapport de vraisemblance.

Si vous avez une idée pour vérifier l'hypothèse de linéarité dans le cadre de ce modèle un peu complexe (pour moi en tous cas), je suis preneuse !

D'avance merci
Selva est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 20/10/2011, 18h01   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 828
Points : 2 828
Bonjour.
La proc GENMOD ne fait pas de maximum de vraisemblance ? D'où te vient cette information ? Pour autant que je sache, il n'y a que du ML dans cette procédure.

Plusieurs pistes : 1) graphiquement avec log ((moy(Y)+0,5)/(1,5-moy(Y))) vs X tu repère un nuage de points linéaire ou non ; 2) avec une comparaison des critères de qualité (AIC, BIC) selon que tu inclues ta variable en quanti ou en tranches ; 3) en incluant à la fois la variable en quanti + en tranches dans le modèle. Si les 2 sont significatives, c'est qu'il y a des écarts significatifs à la relation linéaire.
Les solutions 2 et 3 (ainsi que ton test de ratio de vraisemblances, très proche de 2 mais à faire à la main) sont à réaliser après avoir fixé la structure de la corrélation.

Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/10/2011, 13h49   #3
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 149
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 149
Points : 1 768
Points : 1 768
Qu'est ce qui t'amene a penser que

Citation:
Mon principal souci (pour le moment), est la vérification de la linéarité de mes covariables continues avec la variable explicative
?

+1 Olivier pour l'estimation par le maximum de vraisemblance
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 24/10/2011, 11h13   #4
Invité de passage
 
Inscription : août 2009
Messages : 4
Détails du profil
Informations forums :
Inscription : août 2009
Messages : 4
Points : 0
Points : 0
Bonjour,

Merci pour vos réponses... Effectivement j'ai tout mélangé (initialement j'étais partie sur une proc GLIMMIX pour réaliser une régression logistique avec effet aléatoire et/ou niché, et cette procédure par contre ne passe pas le maximum de vraisemblance). Autant pour moi !

Je vais donc tester ma linéarité avec les méthodes 2 et 3 proposées par Olivier Decourt. Par contre je ne comprends pas la remarque de Manoutz ? Il me semblait que cette étape était indispensable, non ?

Concernant le choix de la matrice de corrélation, je n'ai pas trouvé énormément de documents pour mon type de données. La plupart des documents que j'ai trouvés aident à orienter le choix du type de matrice selon le type de données longitudinales, hors je n'ai pas de données longitudinales dans mon dataset.

Me basant sur un unique cours glané, pour l'instant j'ai regardé si les variances empiriques et basées sur le modèle naïf étaient proches, en choisissant la matrice de travail pour laquelle les variances étaient les plus proches. Je crois qu'on peut aussi se servir du QIC mais je n'ai pas encore exploré cette possibilité. Y a t'il d'autres techniques pour choisir la meilleure matrice de travail ?

J'attends la livraison de "Fixed Effects Regression Methods For Longitudinal Data Using Sas", de Paul Allison, qui je l'espère m'aidera un peu
Selva est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 24/10/2011, 11h48   #5
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 828
Points : 2 828
Le choix de la matrice de corrélation : moi je le fais surtout avec le QIC. Et je démarre avec TYPE=UN pour avoir une idée de l'aspect de la matrice des corrélations à approcher.
S'il n'y a pas de dimension temporelle, les formes les plus courantes sont Toeplitz (MDEP) et Compound Symmetry (CS).
Cela dit, si j'ai bien lu tu as maxi 2 mesures par sujet, donc le choix de la structure est rapide : il y en a beaucoup qui sont strictement équivalentes (les 2 que je t'indique par exemple).

Pour autant que je sache, GLIMMIX aussi ne fait que du maximum de vraisemblance (restreint, certes). Tu aurais presque le même modèle avec cette proc qu'avec GENMOD, sauf dans l'estimation de ta matrice de variance qui est réalisée avec des algos subtilement différents. L'avantage de GLIMMIX c'est que tu auras des critères de qualité plus variés que GENMOD (AIC, AICC, BIC alors que GENMOD ne t'affichera que QIC). Et plus de structures de corrélation aussi. Par contre, ce n'est pas REPEATED mais RANDOM _RESIDUAL_ qu'il faudra utiliser comme instruction.
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 25/10/2011, 16h05   #6
Invité de passage
 
Inscription : août 2009
Messages : 4
Détails du profil
Informations forums :
Inscription : août 2009
Messages : 4
Points : 0
Points : 0
Bonjour,

Voici ce sur quoi je me lance (proc genmod) : il s'agit de tester chaque covariable continue avec ma variable à expliquer (sélection des variables éligibles pour entrer dans le modèle final).

- Je réalise d'abord un modèle avec une covariable continue et je teste les différents types de matrice, je sélectionne celui dont le QIC est le plus petit.

- Ensuite je vérifie la linéarité (méthode 3) : j'inclus dans mon modèle à la fois la variable continue et en tranches (définies par quartiles), en retenant le type de matrice défini précédemment.

Que faire dans le cas où ces deux variables sont non significatives, ou dans le cas ou l'une l'est et pas l'autre ? Je ne comprends pas bien comment fonctionne cette méthode.

Est-ce que je peux utiliser le QIC pour comparer mes modèles si je fais la méthode 2 (variable en continu / en tranches), vu que je ne récupère en sortie ni AIC ni BIC ni log de la vraisemblance ?

- Enfin je réalise le modèle (groupe = covariable) avec la variable en continu ou en classes selon le résultat du test de la linéarité.

Il y aura ainsi une trentaine de modèles de ce type, avec à chaque fois une covariable différente. Je compte donc d'une part effectuer une correction pour tests multiples (type FDR ?) puis réaliser un modèle complet contenant toutes les variables significativement liées au groupe (que je réduirais ensuite).

Je ne sais pas si c'est clair, et si oui, si cette démarche vous semble correcte.
Selva est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 16h37.


 
 
 
 
Partenaires

Hébergement Web