Bonjour à tous,
Je recherche ici du soutien pour mon mémoire de fin d'étude.
Je teste une regression logistique binaire sur un échantillon d'environ 90000 clients.
Voici ma méthodologie, merci de me dire ce que vous en pensez et répondre à quelques questions :
1. Significativité du modèle
Je garde que les variables qui ont une p_value <5%.
2. Appréciation de la qualité du modèle
Critère AIC et deviance
3. Calcul des exponentielles des paramètres (odds-ratio)
Un des facteur est à 6. Soit ce facteur a 6 fois plus de chances de passer la variable expliquée de 0 à 1. C'est bien cela ?
Quelqu'un peut m'expliquer à quoi sert les intervalles de confiance ?
4. Le taux d'erreur du modèle
Je cacule le taux d'erreur du modèle grâce à la mtrice de confusion. J'obtiens un taux d'erreur de 11%.
5. Echantillon de test
Je teste le modèle sur un nouvel échantillon grâce à la fonction predict().
Mais sur cet échantillon je ne peux pas calculer un taux d'erreur c'Est bien cela ?
D'avance merci
Partager