IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Regression logistique :quelques questions.


Sujet :

R

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2019
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 27
    Localisation : France, Vendée (Pays de la Loire)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2019
    Messages : 3
    Points : 1
    Points
    1
    Par défaut Regression logistique :quelques questions.
    Bonjour,

    J'ai realise une regression logistique sur R, donc le resultat est presente ci dessous.
    Mon but est de differencier deux groupes a et b, le groupe a etant ici en refference.

    Quand j'effectue un test t pour etudier le facteur "AspectIndex" (quantitatif, prenant des valeurs entre 0 et 1), je trouve que ce facteur est significativement superieur dans le groupe b. Comment se fait il alors que le coefficiant Estimate soit inferieur a 0 ?

    Le facteur qualitatif "Cover" classe les donnees en 4 groupes : Conifer (la refference, donc pas indique ci-dessous), Grass, Rock, Shrub. Dans ma regression, j'obtient des p values significatives pour Grass et Rock, mais pas pour Shrub. Pensez-vous qu'il serait judicieux de retirer le groupe "Shrub" de mon analyse ? si oui comment ?

    Merci d'avoir pris le temps de lire ce message ! Et desole pour les accents, j'ecris actuellement du Canada !

    Nom : Capture2.PNG
Affichages : 590
Taille : 31,2 Ko

  2. #2
    Membre éclairé
    Homme Profil pro
    Chercheur
    Inscrit en
    Décembre 2015
    Messages
    327
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2015
    Messages : 327
    Points : 793
    Points
    793
    Par défaut
    Tout d'abord une régression logistique n'est pas une Anova, on ne peut donc pas raisonner sur des différences significatives entre deux groupes mais sur des facteurs de risque. Donc, pour AspectIndex, la régression logistique calcule la pente du logit de Pr( b), c'est-à-dire que la relation entre Pr( b) est AspectIndex est estimée être : log( Pr( b) / (1 - Pr( b)) = -6.42 * AspectIndex. Tous les coefficients estimées doivent être interprétés de cette manière.

    Pour le facteur Cover, c'est légèrement plus compliqué. Tu remarqueras qu'il n'y a que 3 valeurs estimées alors que le facteur a 4 niveaux. Cela provient de la méthode de calcul car on peut montrer qu'il n'y a que 3 degrés de liberté donc calculer les quatre valeurs donnerait un système sur-dimensionné. Par défaut, R va estimer l'intercept pour le premier niveau et calcule les différences entre ce premier niveau et les autres, c'est ce que R appelle le contraste treatment. Le résultat signifie donc que d'après l'échantillon, la régression ne trouve pas de différence significative entre le coefficient de Conifer et celui de Shrub, mais des différences significatives entre Conifer et Grass et entre Conifer et Rock mais rien ne dit qu'il y ait une différence significative entre Grass et Rock. Pour répondre à ton problème, tu dois effectuer un test post-hoc en utilisant par exemple le package emmeans.

  3. #3
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2019
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 27
    Localisation : France, Vendée (Pays de la Loire)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2019
    Messages : 3
    Points : 1
    Points
    1
    Par défaut
    Merci pour votre reponse !

    Ce que je ne comprend pas, c'est que pour un facteur X1, je puisse obtenir un coefficient avec un signe different suivant que je realise le modele Y ~ X1, ou bien Y ~ X1,X2,X3 .

    Disons par exemple que le coefficiant correspondant a X1 est positif pour le premier modele, negatif pour le second. Cela veut dire que ce meme facteur aura un impact contraire sur la probabilite qu'un individu soit dans un groupe ou l'autre, suivant le modele choisi ?

  4. #4
    Membre éclairé
    Homme Profil pro
    Chercheur
    Inscrit en
    Décembre 2015
    Messages
    327
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2015
    Messages : 327
    Points : 793
    Points
    793
    Par défaut
    Fais tourner le script suivant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    x1 <- runif( 20, 0, 10)
    coef <- 0.4
    x2 <- x1 * c( -1, 1) + coef * x1
    p2 <- -0.2
    y <- x2 + p2 * x1 + rnorm( 20, sd=0.1)
     
    l2 <- lm( y ~ x1)
    l1 <- lm( y ~ x1 + x2)
     
    summary( l2)
    summary( l1)
    Tu verras que le signe de la pente de x1 passe de positif pour l2 à négatif pour l1. La raison ? La corrélation entre les deux prédicteurs que tu peux vérifier par cor( x2, x1).

    Que s'est-il passé ?
    Dans le modèle l2 ( y ~ x1), la régression affecte à x1 son propre poids plus celui de la contribution de x1 à x2 (donc de l'ordre de p2 + 1) tandis que dans le modèle l2 ( y ~ x1 + x2), x1 n'est crédité que de sa propre contribution (de l'ordre de p2). C'est ce qui t'arrive pour tes modèles même si dans ton cas, tu utilises une régression logistique. Comme on peut comparer deux modèle de régression linéaire (Anova et Ancova compris) grâce à la fonction anova, on peut comparer deux modèles de régression logistique à partir de leur déviance pour voir celui qui est le meilleur (cf. par exemple https://stats.idre.ucla.edu/r/dae/logit-regression/). Mais auparavant, comme pour la régression linéaire, on peut voir la significativité des prédicteurs en utilisant la fonction anova ou la fonction car::Anova. Personnellement, je préfère cette dernière car elle donne l'importance de tous les prédicteurs et non, comme anova, ce qu'apporte au modèle l'introduction d'un facteur supplémentaire. C'est sur cette dernière base que tu dois décider si tu gardes un prédicteur par contre, sauf raison théorique à partir du design de l'expérience, ne jamais enlever un niveau à un facteur. Si tu en enlèves un, il faut que ce soit vraiment justifié a priori (c'est-à-dire avant l'analyse et non sur les résultats de l'analyse) mais aussi, tu peux te poser des questions sur le design de l'expérience.

  5. #5
    Membre confirmé
    Inscrit en
    Février 2011
    Messages
    276
    Détails du profil
    Informations forums :
    Inscription : Février 2011
    Messages : 276
    Points : 561
    Points
    561
    Par défaut
    Bonjour,

    Pour comprendre la différence entre une régression simple (quelle soit logistique ou non) et une régression multiple je t'invite a lire ce pdf :
    http://biol09.biol.umontreal.ca/CoursPL/Regression.pdfA partir de la page 22. Tu verras l'importance d'utiliser une régression multiple plutôt qu'une régression simple.
    Pour résumé quand tu fais Y ~ x1 le coefficient peut-être positif parce que x1 est corrélée à x2 et donc quand tu fais Y ~ x1 + x2, le coefficient de x2 est positif mais x1 peut devenir négatif parce qu'à ce moment là le coefficient de x1 représente la relation de Y en fonction de x1 pour un niveau donné de x2. Autrement dit quand x2 est controlé aors l'effet de x1 est négaif. Mais quand tu prends pas en compte x2, l'effet de x1 est positif seulement parce que x1 est corrélée positivement à x2.

    Pour ce qui est des coefficients, si le lien est le logit (par défaut) et si la variable est quantitative alors il s'explique aussi en calculant leur exponentiel. Dans ce cas la ça revient à faire exp(1*-6.42) = 0.001628656. Quand la variable AspectIndex augmente de 1 unité alors le rapport des chances d'obtenir b est divisé par 614 (1/0.001628656). Donc tu as 614 fois moins de chance d'avoir b quand AspectIndex augmente de 1.

    Après il y a comme un souci dans ta régression logistique, celle-ci semble sous dispersée. Normalement la déviance résiduelle suit une loi de Chi² de degrés de libertés les degrés résiduels (6018 ici). Ce qui ne semble pas du tout être la cas ici ou ta déviance résiduelle est beaucoup trop basse. Tu n'as pas eu de warnings au moment ou tu l'as lancée ?

    cdlt

  6. #6
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2019
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 27
    Localisation : France, Vendée (Pays de la Loire)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2019
    Messages : 3
    Points : 1
    Points
    1
    Par défaut
    Merci beaucoup pour vos reponses !!

  7. #7
    Membre confirmé
    Inscrit en
    Février 2011
    Messages
    276
    Détails du profil
    Informations forums :
    Inscription : Février 2011
    Messages : 276
    Points : 561
    Points
    561
    Par défaut
    re,

    je n'avais pas regardé dans le détail ce qui se passait, mais il y quelque chose d'étrange avec ta variable SnowIndex. Le coefficient est de 13.99, disons 14, ce qui donne un odds ratio, un rapport des chances de exp(14) = 1202604. Ca semble vraiment énorme. A mon avis tu dois presque avoir tout tes individus qui ont b qui ont des valeurs très distinctes de SnowIndex par rapport à tes indvidus a d'où cette valeur très étrange. Ca remet en cause toutes les autres valeurs par la même occasion.

    cdlt

Discussions similaires

  1. Quelques question sur Win 32 Appli
    Par lvdnono dans le forum Windows
    Réponses: 5
    Dernier message: 15/06/2004, 12h37
  2. [Débutant]Quelques questions de principe sur l'API win32
    Par silver_dragoon dans le forum Windows
    Réponses: 4
    Dernier message: 19/03/2004, 18h38
  3. [install]Install sous windows... quelques questions
    Par omega dans le forum Eclipse Java
    Réponses: 5
    Dernier message: 26/02/2004, 09h50
  4. [MFC] Quelques questions de débutant...
    Par Sephi dans le forum MFC
    Réponses: 4
    Dernier message: 20/02/2004, 17h25
  5. Quelques questions sur le TWebBrowser...
    Par CorO dans le forum Web & réseau
    Réponses: 3
    Dernier message: 17/01/2003, 21h23

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo