IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS STAT Discussion :

Modèle logistique marginal avec estimation GEE - variables explicatives continues


Sujet :

SAS STAT

  1. #1
    Candidat au Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 4
    Points : 2
    Points
    2
    Par défaut Modèle logistique marginal avec estimation GEE - variables explicatives continues
    Bonjour à tous,

    Je souhaite réaliser un modèle logistique marginal avec une estimation GEE.

    Ma variable à expliquer suit une loi binomiale, et la plupart des variables explicatives sont continues. De plus, chaque sujet a 1 ou 2 mesures simultanées des paramètres explicatifs, d'où la prise en compte nécessaire de la corrélation intra-individuelle (il ne s'agit pas de mesures longitudinales).

    Pour ce faire, nous avons opté pour une proc GENMOD avec option repeated, chaque individu définissant un cluster.

    Mon principal souci (pour le moment), est la vérification de la linéarité de mes covariables continues avec la variable explicative ! En effet, si j'ai bien compris, la proc GENMOD ne se basant pas sur le calcul du maximum de vraisemblance, je ne peux donc pas utiliser la méthode que j'utilisais avec une proc logistic dans le cadre d'une régression logistique "classique", à savoir la comparaison des modèles (variable catégorielle issue de la continue, analysée en continu puis en catégories) par le test du rapport de vraisemblance.

    Si vous avez une idée pour vérifier l'hypothèse de linéarité dans le cadre de ce modèle un peu complexe (pour moi en tous cas), je suis preneuse !

    D'avance merci

  2. #2
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Bonjour.
    La proc GENMOD ne fait pas de maximum de vraisemblance ? D'où te vient cette information ? Pour autant que je sache, il n'y a que du ML dans cette procédure.

    Plusieurs pistes : 1) graphiquement avec log ((moy(Y)+0,5)/(1,5-moy(Y))) vs X tu repère un nuage de points linéaire ou non ; 2) avec une comparaison des critères de qualité (AIC, BIC) selon que tu inclues ta variable en quanti ou en tranches ; 3) en incluant à la fois la variable en quanti + en tranches dans le modèle. Si les 2 sont significatives, c'est qu'il y a des écarts significatifs à la relation linéaire.
    Les solutions 2 et 3 (ainsi que ton test de ratio de vraisemblances, très proche de 2 mais à faire à la main) sont à réaliser après avoir fixé la structure de la corrélation.

    Bon courage.
    Olivier
    Bon courage.
    Olivier

  3. #3
    Membre chevronné
    Homme Profil pro
    Biostatisticien
    Inscrit en
    Juin 2009
    Messages
    1 206
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Irlande

    Informations professionnelles :
    Activité : Biostatisticien
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Juin 2009
    Messages : 1 206
    Points : 1 868
    Points
    1 868
    Par défaut
    Qu'est ce qui t'amene a penser que

    Mon principal souci (pour le moment), est la vérification de la linéarité de mes covariables continues avec la variable explicative
    ?

    +1 Olivier pour l'estimation par le maximum de vraisemblance

  4. #4
    Candidat au Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 4
    Points : 2
    Points
    2
    Par défaut
    Bonjour,

    Merci pour vos réponses... Effectivement j'ai tout mélangé (initialement j'étais partie sur une proc GLIMMIX pour réaliser une régression logistique avec effet aléatoire et/ou niché, et cette procédure par contre ne passe pas le maximum de vraisemblance). Autant pour moi !

    Je vais donc tester ma linéarité avec les méthodes 2 et 3 proposées par Olivier Decourt. Par contre je ne comprends pas la remarque de Manoutz ? Il me semblait que cette étape était indispensable, non ?

    Concernant le choix de la matrice de corrélation, je n'ai pas trouvé énormément de documents pour mon type de données. La plupart des documents que j'ai trouvés aident à orienter le choix du type de matrice selon le type de données longitudinales, hors je n'ai pas de données longitudinales dans mon dataset.

    Me basant sur un unique cours glané, pour l'instant j'ai regardé si les variances empiriques et basées sur le modèle naïf étaient proches, en choisissant la matrice de travail pour laquelle les variances étaient les plus proches. Je crois qu'on peut aussi se servir du QIC mais je n'ai pas encore exploré cette possibilité. Y a t'il d'autres techniques pour choisir la meilleure matrice de travail ?

    J'attends la livraison de "Fixed Effects Regression Methods For Longitudinal Data Using Sas", de Paul Allison, qui je l'espère m'aidera un peu

  5. #5
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Le choix de la matrice de corrélation : moi je le fais surtout avec le QIC. Et je démarre avec TYPE=UN pour avoir une idée de l'aspect de la matrice des corrélations à approcher.
    S'il n'y a pas de dimension temporelle, les formes les plus courantes sont Toeplitz (MDEP) et Compound Symmetry (CS).
    Cela dit, si j'ai bien lu tu as maxi 2 mesures par sujet, donc le choix de la structure est rapide : il y en a beaucoup qui sont strictement équivalentes (les 2 que je t'indique par exemple).

    Pour autant que je sache, GLIMMIX aussi ne fait que du maximum de vraisemblance (restreint, certes). Tu aurais presque le même modèle avec cette proc qu'avec GENMOD, sauf dans l'estimation de ta matrice de variance qui est réalisée avec des algos subtilement différents. L'avantage de GLIMMIX c'est que tu auras des critères de qualité plus variés que GENMOD (AIC, AICC, BIC alors que GENMOD ne t'affichera que QIC). Et plus de structures de corrélation aussi. Par contre, ce n'est pas REPEATED mais RANDOM _RESIDUAL_ qu'il faudra utiliser comme instruction.
    Bon courage.
    Olivier

  6. #6
    Candidat au Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 4
    Points : 2
    Points
    2
    Par défaut
    Bonjour,

    Voici ce sur quoi je me lance (proc genmod) : il s'agit de tester chaque covariable continue avec ma variable à expliquer (sélection des variables éligibles pour entrer dans le modèle final).

    - Je réalise d'abord un modèle avec une covariable continue et je teste les différents types de matrice, je sélectionne celui dont le QIC est le plus petit.

    - Ensuite je vérifie la linéarité (méthode 3) : j'inclus dans mon modèle à la fois la variable continue et en tranches (définies par quartiles), en retenant le type de matrice défini précédemment.

    Que faire dans le cas où ces deux variables sont non significatives, ou dans le cas ou l'une l'est et pas l'autre ? Je ne comprends pas bien comment fonctionne cette méthode.

    Est-ce que je peux utiliser le QIC pour comparer mes modèles si je fais la méthode 2 (variable en continu / en tranches), vu que je ne récupère en sortie ni AIC ni BIC ni log de la vraisemblance ?

    - Enfin je réalise le modèle (groupe = covariable) avec la variable en continu ou en classes selon le résultat du test de la linéarité.

    Il y aura ainsi une trentaine de modèles de ce type, avec à chaque fois une covariable différente. Je compte donc d'une part effectuer une correction pour tests multiples (type FDR ?) puis réaliser un modèle complet contenant toutes les variables significativement liées au groupe (que je réduirais ensuite).

    Je ne sais pas si c'est clair, et si oui, si cette démarche vous semble correcte.

Discussions similaires

  1. Réponses: 0
    Dernier message: 05/01/2015, 15h24
  2. Modèle mixte : effet variable explicatives
    Par medfand dans le forum SAS STAT
    Réponses: 0
    Dernier message: 06/06/2013, 09h32
  3. Réponses: 0
    Dernier message: 10/06/2010, 12h23
  4. A propos des modèles d'objet (avec sources)
    Par DevX dans le forum C++Builder
    Réponses: 14
    Dernier message: 01/12/2002, 12h22
  5. Procédure avec un nombre variable d'arguments
    Par charly dans le forum Langage
    Réponses: 15
    Dernier message: 21/06/2002, 11h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo