Regression logistique :quelques questions.

**yosh_85** · 28/01/2019, 17h34

Bonjour,

J'ai realise une regression logistique sur R, donc le resultat est presente ci dessous.
Mon but est de differencier deux groupes a et b, le groupe a etant ici en refference.

Quand j'effectue un test t pour etudier le facteur "AspectIndex" (quantitatif, prenant des valeurs entre 0 et 1), je trouve que ce facteur est significativement superieur dans le groupe b. Comment se fait il alors que le coefficiant Estimate soit inferieur a 0 ?

Le facteur qualitatif "Cover" classe les donnees en 4 groupes : Conifer (la refference, donc pas indique ci-dessous), Grass, Rock, Shrub. Dans ma regression, j'obtient des p values significatives pour Grass et Rock, mais pas pour Shrub. Pensez-vous qu'il serait judicieux de retirer le groupe "Shrub" de mon analyse ? si oui comment ?

Merci d'avoir pris le temps de lire ce message ! Et desole pour les accents, j'ecris actuellement du Canada !

Nom : Capture2.PNG
Affichages : 590
Taille : 31,2 Ko

Nom : Capture2.PNG
Affichages : 590
Taille : 31,2 Ko

**faubry** · 28/01/2019, 22h22

Tout d'abord une régression logistique n'est pas une Anova, on ne peut donc pas raisonner sur des différences significatives entre deux groupes mais sur des facteurs de risque. Donc, pour AspectIndex, la régression logistique calcule la pente du logit de Pr( b), c'est-à-dire que la relation entre Pr( b) est AspectIndex est estimée être : log( Pr( b) / (1 - Pr( b)) = -6.42 * AspectIndex. Tous les coefficients estimées doivent être interprétés de cette manière.

Pour le facteur Cover, c'est légèrement plus compliqué. Tu remarqueras qu'il n'y a que 3 valeurs estimées alors que le facteur a 4 niveaux. Cela provient de la méthode de calcul car on peut montrer qu'il n'y a que 3 degrés de liberté donc calculer les quatre valeurs donnerait un système sur-dimensionné. Par défaut, R va estimer l'intercept pour le premier niveau et calcule les différences entre ce premier niveau et les autres, c'est ce que R appelle le contraste treatment. Le résultat signifie donc que d'après l'échantillon, la régression ne trouve pas de différence significative entre le coefficient de Conifer et celui de Shrub, mais des différences significatives entre Conifer et Grass et entre Conifer et Rock mais rien ne dit qu'il y ait une différence significative entre Grass et Rock. Pour répondre à ton problème, tu dois effectuer un test post-hoc en utilisant par exemple le package emmeans.

**yosh_85** · 28/01/2019, 22h49

Merci pour votre reponse !

Ce que je ne comprend pas, c'est que pour un facteur X1, je puisse obtenir un coefficient avec un signe different suivant que je realise le modele Y ~ X1, ou bien Y ~ X1,X2,X3 .

Disons par exemple que le coefficiant correspondant a X1 est positif pour le premier modele, negatif pour le second. Cela veut dire que ce meme facteur aura un impact contraire sur la probabilite qu'un individu soit dans un groupe ou l'autre, suivant le modele choisi ?

**faubry** · 29/01/2019, 08h35

Fais tourner le script suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
x1 <- runif( 20, 0, 10)
coef <- 0.4
x2 <- x1 * c( -1, 1) + coef * x1
p2 <- -0.2
y <- x2 + p2 * x1 + rnorm( 20, sd=0.1)
 
l2 <- lm( y ~ x1)
l1 <- lm( y ~ x1 + x2)
 
summary( l2)
summary( l1)

Tu verras que le signe de la pente de x1 passe de positif pour l2 à négatif pour l1. La raison ? La corrélation entre les deux prédicteurs que tu peux vérifier par cor( x2, x1).

Que s'est-il passé ?
Dans le modèle l2 ( y ~ x1), la régression affecte à x1 son propre poids plus celui de la contribution de x1 à x2 (donc de l'ordre de p2 + 1) tandis que dans le modèle l2 ( y ~ x1 + x2), x1 n'est crédité que de sa propre contribution (de l'ordre de p2). C'est ce qui t'arrive pour tes modèles même si dans ton cas, tu utilises une régression logistique. Comme on peut comparer deux modèle de régression linéaire (Anova et Ancova compris) grâce à la fonction anova, on peut comparer deux modèles de régression logistique à partir de leur déviance pour voir celui qui est le meilleur (cf. par exemple https://stats.idre.ucla.edu/r/dae/logit-regression/). Mais auparavant, comme pour la régression linéaire, on peut voir la significativité des prédicteurs en utilisant la fonction anova ou la fonction car::Anova. Personnellement, je préfère cette dernière car elle donne l'importance de tous les prédicteurs et non, comme anova, ce qu'apporte au modèle l'introduction d'un facteur supplémentaire. C'est sur cette dernière base que tu dois décider si tu gardes un prédicteur par contre, sauf raison théorique à partir du design de l'expérience, ne jamais enlever un niveau à un facteur. Si tu en enlèves un, il faut que ce soit vraiment justifié a priori (c'est-à-dire avant l'analyse et non sur les résultats de l'analyse) mais aussi, tu peux te poser des questions sur le design de l'expérience.

**tototode** · 29/01/2019, 09h48

Bonjour,

Pour comprendre la différence entre une régression simple (quelle soit logistique ou non) et une régression multiple je t'invite a lire ce pdf :
http://biol09.biol.umontreal.ca/CoursPL/Regression.pdfA partir de la page 22. Tu verras l'importance d'utiliser une régression multiple plutôt qu'une régression simple.
Pour résumé quand tu fais Y ~ x1 le coefficient peut-être positif parce que x1 est corrélée à x2 et donc quand tu fais Y ~ x1 + x2, le coefficient de x2 est positif mais x1 peut devenir négatif parce qu'à ce moment là le coefficient de x1 représente la relation de Y en fonction de x1 pour un niveau donné de x2. Autrement dit quand x2 est controlé aors l'effet de x1 est négaif. Mais quand tu prends pas en compte x2, l'effet de x1 est positif seulement parce que x1 est corrélée positivement à x2.

Pour ce qui est des coefficients, si le lien est le logit (par défaut) et si la variable est quantitative alors il s'explique aussi en calculant leur exponentiel. Dans ce cas la ça revient à faire exp(1*-6.42) = 0.001628656. Quand la variable AspectIndex augmente de 1 unité alors le rapport des chances d'obtenir b est divisé par 614 (1/0.001628656). Donc tu as 614 fois moins de chance d'avoir b quand AspectIndex augmente de 1.

Après il y a comme un souci dans ta régression logistique, celle-ci semble sous dispersée. Normalement la déviance résiduelle suit une loi de Chi² de degrés de libertés les degrés résiduels (6018 ici). Ce qui ne semble pas du tout être la cas ici ou ta déviance résiduelle est beaucoup trop basse. Tu n'as pas eu de warnings au moment ou tu l'as lancée ?

cdlt

**yosh_85** · 30/01/2019, 16h55

Merci beaucoup pour vos reponses !!

**tototode** · 30/01/2019, 23h17

re,

je n'avais pas regardé dans le détail ce qui se passait, mais il y quelque chose d'étrange avec ta variable SnowIndex. Le coefficient est de 13.99, disons 14, ce qui donne un odds ratio, un rapport des chances de exp(14) = 1202604. Ca semble vraiment énorme. A mon avis tu dois presque avoir tout tes individus qui ont b qui ont des valeurs très distinctes de SnowIndex par rapport à tes indvidus a d'où cette valeur très étrange. Ca remet en cause toutes les autres valeurs par la même occasion.

cdlt

Regression logistique :quelques questions.

R

Discussions similaires

Partager

Partager