IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

GLM binomial logit


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2011
    Messages : 9
    Par défaut GLM binomial logit
    Bonjour,

    J'ai un petit souci de compréhension sur l'application d'un GLM binomial à mon jeu de données.
    Le dataframe sur lequel j'applique mon GLM est de la forme :

    Zone Trimestre Année Taille nbsucces nbechec
    Zone1 Tri1 2005 petit 2 0
    Zone2 Tri2 2006 moyen 1 1
    Zone3 Tri3 2007 grand 3 2
    Zone4 Tri4 2008 grand 0 2
    Zone4 Tri4 2008 petit 4 1
    Zone2 Tri2 2007 moyen 5 2

    Je cherche à étudier et prédire la proportion d'échec par rapport à mes 4 variables explicatives. Mes valeurs de succès et d'échec ne sont pas de type 0 et 1 car j'ai effectué au préalable un aggregate sur mes données brutes afin d'avoir une somme d'observations par strate (caractérisées par les 4 variables).

    J'applique mon glm après avoir transformé mes variables explicatives en factor

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    model<-glm(cbind(nbechec,nbsucces)~ Zone + Trimestre + Taille + Année ,family=binomial(link="logit"))
    J'obtiens alors un

    Message d'avis :
    glm.fit: des probabilités ont été ajustées numériquement à 0 ou 1, que j'ai du mal à expliquer.

    En voulant sélectionner le model parcimonieux à l'aide de la fonction step
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    model.stp<-step(model,direction="backward")
    même messages d'avis

    En effectuant un test Chi² mes variables retenues par Akaiké ont une p-value satisfaisante mais pour mon
    toutes les p-values sont proches de 1 et identiques

    pourtant mon pseudo R² m'indique une valeur correcte pour mon modèle.(0.6)

    J'ai énormément de mal à comprendre les warnings et à déterminer si mon modèle peut être conservé dans l'état.

    J'espère que certains d'entre vous pourront m'éclairer et les en remercie d'avance.

  2. #2
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,

    A mon humble avis, le problème vient du fait que vous définissez mal votre modèle.

    En effet, l'utilisation de la fonction "glm(...,family=binomial("logit"))" est valable uniquement pour les modèles dont la variable réponse/à expliquer est de type binomiale, à savoir prend uniquement 2 valeurs (0 ou 1).

    Dans votre cas, soit vous reprenez vos données initiales avec une variables échec OUI/NON. Soit vous prenez comme variable réponse le nombre ou le taux d'échecs, auquel cas il vous faudra redéfinir un nouveau modèle. Par exemple, soit vous considérez que le nombre d'échecs est une variable continue, dans ce cas vous avez affaire à une régression linéaire "classique", soit vous considérez qu'il s'agit d'une variable à plusieurs modalités (par exemple 3 modalités si elle ne peut prendre que les valeurs 1, 2 ou 3, ou bien en redéfinissant des classes, par exemple classe 1 = 0 à 3 échecs, classe 2 = 4 à 8 échecs...), et vous avez affaire alors à une régression logistique multinomiale.

    Bref, tout ça pour dire que la première chose à faire est donc de bien spécifier le modèle choisi. Après il n'y a pas de méthode (variable considérée comme continue ou répartie en classe) qui soit toujours meilleure, tout dépend de votre cas, de vos données, et de la connaissance du domaine d'étude.

    Bonne continuation


    Cordialement,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2011
    Messages : 9
    Par défaut
    Bonjour et merci de votre réponse.

    J'avais effectivement soupçonné que le problème venait de la forme de mon dataframe. Après quelques vérifications sur internet sur la conception de modèle binomiale, j'ai cru comprendre que la binomiale s'applique pour des valeurs de 0 ou 1 car il s'agit d'une distribution de Bernoulli (cas particulier). Dans mon cas, je calcule effectivement un nombre d'échec et de succès mais qui correspond à une distribution binomiale (n fois épreuve de Bernoulli). J'ai trouvé quelques exemples (de Cornillon notamment) qui valide la structure de mon modèle.

    Est ce que le warning pourrait m'indiquer que pour certaines strates de mon jeu de données, n'ayant que des observations de succès ou d'échec la probabilité de cet évènement soit de 1 (ou 0 ) ?

    Je débute en GLM veuillez m'excuser pour ces questions un peu "bêtes".

    Encore merci pour votre aide.

  4. #4
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,

    Nous sommes bien d'accord que les seules issues possibles sont soit un échec, soit une réussite?

    Quelle est la question (problématique) à laquelle vous souhaitez répondre?

    Citation Envoyé par marpanh
    Je cherche à étudier et prédire la proportion d'échec par rapport à mes 4 variables explicatives.
    Dans ce cas, pour moi, vous ne devez pas prendre en compte les deux variables "nombre d'échecs" et "nombre de réussites" à la fois dans votre modèle, mais plutôt créer une nouvelle variable "taux d'échecs" et la considérer comme LA variable à expliquer de votre modèle.

    Qu'en dites-vous?

    Bonne continuation


    Cordialement,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  5. #5
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2011
    Messages : 9
    Par défaut
    Bonsoir,

    Le but de mon glm est d'identifer si une strate en particulier pourrait avoir un effet sur ma proportion d'échec (ou de réussite) et surtout de la prédire sur des jeux de données dont on n'aura pas forcément les observations.

    Dans l'écriture R d'un glm binomial impliquant une proportion comme variable réponse, il semble que considérer un taux d'échec en prenant en compte le nombre total d'observation ou bien un nombre d'échec et de réussite revienne au même pour la fonction glm. J'ai essayé des 2 manières et j'ai obtenu les mêmes résultats et toujours le même warning.

    J'ai tenté de limiter des le départ le nombre de variables explicatives, en enlevant certaines, plus de warning et un AIC qui conserve le modele nul alors qu'avec le warning 2 d'entre elles ont un effet. Je ne vois pas quels résultats je dois considérer.

    Cordialement

Discussions similaires

  1. Réponses: 9
    Dernier message: 07/08/2014, 09h14
  2. Interprétation sorties glm (binomial)
    Par skeum dans le forum R
    Réponses: 5
    Dernier message: 21/08/2013, 20h47
  3. plot glm binomial
    Par bastuk dans le forum R
    Réponses: 2
    Dernier message: 14/05/2013, 14h57
  4. Interprétations GLM binomial et poisson
    Par Fentahn dans le forum R
    Réponses: 3
    Dernier message: 18/10/2009, 21h59
  5. Loader des .obj avec glm sdl
    Par lapointemar dans le forum SDL
    Réponses: 0
    Dernier message: 23/08/2007, 02h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo