Bonjour tout le monde,

Je fais actuellement une régression logistique - qui se prête bien à mes données.
Après une étude préliminaire (enlever les variables trop corrélées entre elles, centrer et normaliser mes données de mes variables quantitatives, etc.) je fais ma petite régression logistique et un paramètre me fait "tiquer".

En effet un de mes paramètres estimés est négatif alors que toutes mes données sont des entiers positifs (et strictement supérieur à 0).
Du coup je fais une régression logistique uniquement sur la variable concernée pour comprendre un petit peu et j'obtiens cela en sortie :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
summary(modele_TxAchat)
 
Call:
glm(formula = Porteur ~ TauxdAchat, family = binomial, data = donnees)
 
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-0.6115  -0.5506  -0.5120  -0.4670   3.5380  
 
Coefficients:
               Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.57579    0.06043 -26.078  < 2e-16 ***
TauxdAchat -1.17027    0.16717  -7.001 2.55e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 5687.2  on 7567  degrees of freedom
Residual deviance: 5626.4  on 7566  degrees of freedom
AIC: 5630.4
 
Number of Fisher Scoring iterations: 5
Bon déjà quelque chose de négatif me parait bizarre (surtout que j'ai bien vérifié qu'il n'y avait pas d'erreur dans mes données) mais je me dis qu'après tout c'est un "odd-ratio" qu'on a en sortie donc au final peut être que ça s'ajuste à mes données.

Après avoir fait un "predict" sur le même jeu de données j'obtiens bien entendu un 100% de non porteur ... puisque c'est censé être porteur quand la probabilité estimée dépasse 0.5 ... ce qui arrive quand mon taux d'achats (ma variable explicative) est inférieur à -0.3

Si quelqu'un pouvait m'expliquer d'où peut venir le problème.

Idem comment être certain qu'on cherche bien la probabilité d'être "porteur" sachant les variables explicatives plutôt que la probabilité d'être "non porteur" sachant les variables explicatives (c'est censé être la même chose à contrario puisqu'une binomiale m'enfin ...).

Bien cdlt,

Hollow