|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Invité de passage
![]() Inscription : août 2009 Messages : 4 ![]() |
Bonjour à tous,
Je souhaite réaliser un modèle logistique marginal avec une estimation GEE. Ma variable à expliquer suit une loi binomiale, et la plupart des variables explicatives sont continues. De plus, chaque sujet a 1 ou 2 mesures simultanées des paramètres explicatifs, d'où la prise en compte nécessaire de la corrélation intra-individuelle (il ne s'agit pas de mesures longitudinales). Pour ce faire, nous avons opté pour une proc GENMOD avec option repeated, chaque individu définissant un cluster. Mon principal souci (pour le moment), est la vérification de la linéarité de mes covariables continues avec la variable explicative ! En effet, si j'ai bien compris, la proc GENMOD ne se basant pas sur le calcul du maximum de vraisemblance, je ne peux donc pas utiliser la méthode que j'utilisais avec une proc logistic dans le cadre d'une régression logistique "classique", à savoir la comparaison des modèles (variable catégorielle issue de la continue, analysée en continu puis en catégories) par le test du rapport de vraisemblance. Si vous avez une idée pour vérifier l'hypothèse de linéarité dans le cadre de ce modèle un peu complexe (pour moi en tous cas), je suis preneuse ! D'avance merci |
|
|
00
|
|
|
#2 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Bonjour.
La proc GENMOD ne fait pas de maximum de vraisemblance ? D'où te vient cette information ? Pour autant que je sache, il n'y a que du ML dans cette procédure. Plusieurs pistes : 1) graphiquement avec log ((moy(Y)+0,5)/(1,5-moy(Y))) vs X tu repère un nuage de points linéaire ou non ; 2) avec une comparaison des critères de qualité (AIC, BIC) selon que tu inclues ta variable en quanti ou en tranches ; 3) en incluant à la fois la variable en quanti + en tranches dans le modèle. Si les 2 sont significatives, c'est qu'il y a des écarts significatifs à la relation linéaire. Les solutions 2 et 3 (ainsi que ton test de ratio de vraisemblances, très proche de 2 mais à faire à la main) sont à réaliser après avoir fixé la structure de la corrélation. Bon courage. Olivier |
|
|
00
|
|
|
#3 | |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 149 ![]() |
Qu'est ce qui t'amene a penser que
Citation:
+1 Olivier pour l'estimation par le maximum de vraisemblance |
|
|
|
00
|
|
|
#4 |
|
Invité de passage
![]() Inscription : août 2009 Messages : 4 ![]() |
Bonjour,
Merci pour vos réponses... Effectivement j'ai tout mélangé (initialement j'étais partie sur une proc GLIMMIX pour réaliser une régression logistique avec effet aléatoire et/ou niché, et cette procédure par contre ne passe pas le maximum de vraisemblance). Autant pour moi ! Je vais donc tester ma linéarité avec les méthodes 2 et 3 proposées par Olivier Decourt. Par contre je ne comprends pas la remarque de Manoutz ? Il me semblait que cette étape était indispensable, non ? Concernant le choix de la matrice de corrélation, je n'ai pas trouvé énormément de documents pour mon type de données. La plupart des documents que j'ai trouvés aident à orienter le choix du type de matrice selon le type de données longitudinales, hors je n'ai pas de données longitudinales dans mon dataset. Me basant sur un unique cours glané, pour l'instant j'ai regardé si les variances empiriques et basées sur le modèle naïf étaient proches, en choisissant la matrice de travail pour laquelle les variances étaient les plus proches. Je crois qu'on peut aussi se servir du QIC mais je n'ai pas encore exploré cette possibilité. Y a t'il d'autres techniques pour choisir la meilleure matrice de travail ? J'attends la livraison de "Fixed Effects Regression Methods For Longitudinal Data Using Sas", de Paul Allison, qui je l'espère m'aidera un peu |
|
|
00
|
|
|
#5 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Le choix de la matrice de corrélation : moi je le fais surtout avec le QIC. Et je démarre avec TYPE=UN pour avoir une idée de l'aspect de la matrice des corrélations à approcher.
S'il n'y a pas de dimension temporelle, les formes les plus courantes sont Toeplitz (MDEP) et Compound Symmetry (CS). Cela dit, si j'ai bien lu tu as maxi 2 mesures par sujet, donc le choix de la structure est rapide : il y en a beaucoup qui sont strictement équivalentes (les 2 que je t'indique par exemple). Pour autant que je sache, GLIMMIX aussi ne fait que du maximum de vraisemblance (restreint, certes). Tu aurais presque le même modèle avec cette proc qu'avec GENMOD, sauf dans l'estimation de ta matrice de variance qui est réalisée avec des algos subtilement différents. L'avantage de GLIMMIX c'est que tu auras des critères de qualité plus variés que GENMOD (AIC, AICC, BIC alors que GENMOD ne t'affichera que QIC). Et plus de structures de corrélation aussi. Par contre, ce n'est pas REPEATED mais RANDOM _RESIDUAL_ qu'il faudra utiliser comme instruction. |
|
|
00
|
|
|
#6 |
|
Invité de passage
![]() Inscription : août 2009 Messages : 4 ![]() |
Bonjour,
Voici ce sur quoi je me lance (proc genmod) : il s'agit de tester chaque covariable continue avec ma variable à expliquer (sélection des variables éligibles pour entrer dans le modèle final). - Je réalise d'abord un modèle avec une covariable continue et je teste les différents types de matrice, je sélectionne celui dont le QIC est le plus petit. - Ensuite je vérifie la linéarité (méthode 3) : j'inclus dans mon modèle à la fois la variable continue et en tranches (définies par quartiles), en retenant le type de matrice défini précédemment. Que faire dans le cas où ces deux variables sont non significatives, ou dans le cas ou l'une l'est et pas l'autre ? Je ne comprends pas bien comment fonctionne cette méthode. Est-ce que je peux utiliser le QIC pour comparer mes modèles si je fais la méthode 2 (variable en continu / en tranches), vu que je ne récupère en sortie ni AIC ni BIC ni log de la vraisemblance ? - Enfin je réalise le modèle (groupe = covariable) avec la variable en continu ou en classes selon le résultat du test de la linéarité. Il y aura ainsi une trentaine de modèles de ce type, avec à chaque fois une covariable différente. Je compte donc d'une part effectuer une correction pour tests multiples (type FDR ?) puis réaliser un modèle complet contenant toutes les variables significativement liées au groupe (que je réduirais ensuite). Je ne sais pas si c'est clair, et si oui, si cette démarche vous semble correcte. |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com