IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

interprétation step AIC et anova sur des GLM


Sujet :

R

  1. #1
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Mai 2013
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2013
    Messages : 9
    Points : 8
    Points
    8
    Par défaut interprétation step AIC et anova sur des GLM
    Bonjour à tous,

    Mes questions concernent l'interprétation de résultats de deux méthodes que l'on m'a suggéré pour comparer des GLM: le step AIC et l'ANOVA. Je pense que pour y répondre vous devez connaitre un peu le contexte de mon étude; voilà pour quoi j'ai décidé de le développer ci-dessous:

    J'essaie de répondre à diverses questions relatives au braconnage dans le cadre d'une étude des effets des activités anthropiques sur la faune sauvage dans une région en Tanzanie.

    Voici les questions auxquelles je souhaiterais répondre:
    - Est-ce que les braconniers ont plus tendance à chasser dans un certain type de végétation?
    - Est-ce qu'ils ont plus tendance à chasser durant une certaine saison?
    - Est-ce que le braconnage évolue au fil des ans?
    - Est-ce que la présence des chercheurs influence la répartition du braconnage?
    - Est-ce que la présence d'un camp de réfugiés proche de la zone d'étude influence la répartition du braconnage?

    Je dispose pour cela de données récoltées sur 3 ans (2010-2012) où le personnel de terrain a récolté, pour chaque observation: la date, le type de végétation, les coordonnées GPS.

    Chaque observation peut concerner, OU NON le braconnage. Je dispose donc au final de plusieurs variables:

    - une variable dépendante BINAIRE Y (="poaching") correspondant à la présence ou non d'indices relatifs au braconnage (pièges, armes, animaux braconnés, etc).
    - plusieurs variables indépendantes qualitatives ET quantitatives: année, saison, végétation, localisation, distance au camp de base, distance au camp de réfugiés

    (Pour la variable localisation: 9 modalités correspondant à 9 zones différentes, dont une correspond à la zone d'étude principale où se situe le camp de base)

    Pour répondre à mes questions j'ai donc réalisé une régression logistique avec Y= poaching et X1, X2, ..., X6 = vaiables indépendantes citées plus haut.

    Question1: pensez-vous qu'il soit judicieux de faire un GLM incluant toutes les variables alors que je pose plusieurs questions relatives à seulement une de ces 6 variables à chaque fois?

    J'ai utilisé un step AIC et une ANOVA pour sélectionner le meilleur modèle.

    Question 2: pensez-vous que ce soit nécessaire d'utiliser ces méthodes comme mes questions concernent toutes une des 6 variables?

    Question 3: comment interpréteriez-vous les résultats ci-dessous?


    ATTENTION: seules 4 des 6 variables sont utilisées pour l'instant
    seule une partie des résultats du step AIC est présentée ici

    Résultats pour le step AIC
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    > glm1<-glm(Poaching~Year2+Season+Vegetation.type+Safari, family=binomial)
    > step(glm1)
    Start:  AIC=3196.34
    Poaching ~ Year2 + Season + Vegetation.type + Safari
     
                      Df Deviance    AIC
    <none>                 3162.3 3196.3
    - Season           3   3173.4 3201.4
    - Year2            2   3173.6 3203.6
    - Safari           7   3347.7 3367.7
    - Vegetation.type  4   3377.4 3403.4
     
    Call:  glm(formula = Poaching ~ Year2 + Season + Vegetation.type + Safari, 
        family = binomial)
     
    Coefficients:
              (Intercept)                 Year2011                 Year2012        SeasonEarly Dry  
                -4.476294               0.002093              -0.407947               0.206936
    Résultats ANOVA:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    > anova(glm1)
    Analysis of Deviance Table
     
    Model: binomial, link: logit
     
    Response: Poaching
     
    Terms added sequentially (first to last)
     
     
                    Df Deviance Resid. Df Resid. Dev
    NULL                            14957     3614.3
    Year2            2   45.789     14955     3568.5
    Season           3   20.834     14952     3547.7
    Vegetation.type  4  199.916     14948     3347.7
    Safari           7  185.408     14941     3162.3
    Merci beaucoup à qui prendra le temps de lire toutes ces explications et questions et merci INFINIMENT à qui y répondra!

  2. #2
    Membre confirmé
    Inscrit en
    Mars 2013
    Messages
    208
    Détails du profil
    Informations forums :
    Inscription : Mars 2013
    Messages : 208
    Points : 461
    Points
    461
    Par défaut
    Salut,

    Question1: pensez-vous qu'il soit judicieux de faire un GLM incluant toutes les variables alors que je pose plusieurs questions relatives à seulement une de ces 6 variables à chaque fois?
    Tu peux tout à fait directement intégrer toutes les variables de tes questions. De deux choses:

    -Oui, la variable a un effet significatif sur le braconnage si la pvalue est <0.05
    -Pour mesurer et interpréter cet impact facilement, tu peux utiliser les odds ratios.
    Le fait d'intégrer toutes les variables dans ta regression permet de mesurer l'impact d'une variable en particulier toutes choses égales par ailleurs.


    J'ai utilisé un step AIC et une ANOVA pour sélectionner le meilleur modèle.

    Question 2: pensez-vous que ce soit nécessaire d'utiliser ces méthodes comme mes questions concernent toutes une des 6 variables?
    Les méthodes de comparaisons de modèles ne répondent pas à ta problématique, qui est d'évaluer et de mesurer l'impact de certaines variables bien définies sur le braconnage.

    La selection du meilleur modèle n'est utile que dans un but prédicitf: la tu es dans une approche descriptive.

    Question 3: comment interpréteriez-vous les résultats ci-dessous?[/B]

    Coefficients:
    (Intercept) Year2011 Year2012 SeasonEarlyDry
    -4.476294 0.002093 -0.407947 0.206936

    Il faut les p value pour estimer le degré de significativité.
    De plus, l'interprétation des odd ratios et pas des coefficients serait plus concrète pour ta problématique je pense.

    On peut toutefois dire sans trop se mouiller qu'il y a eu moins de braconnage en 2012 qu'en 2011 toute chose égale par ailleurs, et que le braconnage est plus fréquent en saison sèche.



    Une dernière chose:

    Est-ce que le braconnage évolue au fil des ans?
    Cette question en cache une autre:

    1- L'année est t-elle une variable significative?
    ->Même méthodologie qu'avec les autres variables

    2- Les facteurs explicatifs du braconnage ont ils évolué avec l'année? (ie les coins fréquentés par les braconniers sont ils du même genre en 2012 qu'en 2011)

    ->La c'est autre chose, il faut voir sur chacune des tes deux années si les signes des coefficients associés à chacune de tes variables reste les même.

  3. #3
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Mai 2013
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2013
    Messages : 9
    Points : 8
    Points
    8
    Par défaut
    Merci beaucoup Sengar pour cette réponse si rapide!

    Je ne connaissais pas encore les odds ratio, selon d'autres discutions il suffit d'entrer la fonction exp(coef(glm)). Du coup voilà les sorties que j'obtiens:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    > glm1<-glm(Poaching~Year+Season+Veg+Safari, family=binomial)
    > summary(glm1)
     
    Call:
    glm(formula = Poaching ~ Year + Season + Veg + Safari, family = binomial)
     
    Deviance Residuals: 
        Min       1Q   Median       3Q      Max  
    -0.9399  -0.2389  -0.1578  -0.1166   3.2847  
     
    Coefficients:
                           Estimate Std. Error z value Pr(>|z|)    
    (Intercept)           -4.476294   0.757880  -5.906 3.50e-09 ***
    Year2011               0.002093   0.148312   0.014 0.988741    
    Year2012              -0.407947   0.153565  -2.657 0.007895 ** 
    SeasonEarly Dry        0.206936   0.155011   1.335 0.181886    
    SeasonEarly Wet        0.198040   0.144708   1.369 0.171141    
    SeasonWet             -0.402677   0.200249  -2.011 0.044338 *  
    Veg.Miombo             1.188499   0.718350   1.654 0.098029 .  
    Veg.Swamp              3.282261   0.729037   4.502 6.73e-06 ***
    Veg.THFC               2.633981   0.717893   3.669 0.000243 ***
    Veg.THFO               2.405177   0.726094   3.312 0.000925 ***
    SafariLugufu           0.218860   0.337567   0.648 0.516762    
    SafariMfubasi          0.306585   0.361188   0.849 0.395980    
    SafariMlofwesi         0.405825   0.313705   1.294 0.195786    
    SafariMttindi          0.760405   0.325448   2.336 0.019466 *  
    SafariNguye           -1.393666   0.528173  -2.639 0.008324 ** 
    SafariPatrol          -1.291690   0.261159  -4.946 7.58e-07 ***
    SafariSekunde         -0.150032   0.328686  -0.456 0.648060    
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
     
    (Dispersion parameter for binomial family taken to be 1)
     
        Null deviance: 3614.3  on 14957  degrees of freedom
    Residual deviance: 3162.3  on 14941  degrees of freedom
    AIC: 3196.3
     
    Number of Fisher Scoring iterations: 8
     
     
    > exp(coef(glm1))
        (Intercept)       Year2011                Year2012      SeasonEarly Dry 
       0.0113755             1.0020952             0.6650141     1.2299036 
        SeasonEarly Wet   SeasonWet               Veg.Miombo    Veg.Swamp 
       1.2190107             0.6685279             3.2821501     26.6359306 
        Veg.THFC          Veg.THFO                SafariLugufu  SafariMfubasi 
       13.9291138            11.0803928            1.2446571     1.3587764 
        SafariMlofwesi    SafariMttindi           SafariNguye   SafariPatrol 
       1.5005397             2.1391434             0.2481639     0.2748059 
        SafariSekunde 
       0.8606807
    Voilà comment j'interpréterais quelques uns de ces résultats:
    la p-value de 2011 n'est pas significative: cela signifie qu'il n'y a pas eu significativement plus ou moins de braconnage en 2011 par rapport à l'intercept (qui représente 2010??) même si l'odd ratio en 2011 est supérieur à celui de l'intercept. La p-value de 2012 est significative: en regardant les odds-ratios on peut donc conclure qu'il y a eu plus de braconnage en 2012 car l'odd ratio est de 0.67 en 2012 contre 0.01 pour l'intercept (2010).

    Est-ce que je me trompe?


    Sinon je ne suis pas sûre d'avoir compris la fin de tes explications:
    il faut voir sur chacune des tes deux années si les signes des coefficients associés à chacune de tes variables reste les même

    Est-ce que cela signifie qu'il faut que je teste la corrélation entre mes variables? (par exemple un test de Khi² entre la végétation et l'année) et si le résultat est significatif, qu'est-ce que ça veut dire en termes d'interprétation des résultats?


    Merci encore VRAIMENT pour ton aide très précieuse!

  4. #4
    Membre confirmé
    Inscrit en
    Mars 2013
    Messages
    208
    Détails du profil
    Informations forums :
    Inscription : Mars 2013
    Messages : 208
    Points : 461
    Points
    461
    Par défaut
    Citation Envoyé par Anna2013 Voir le message
    Voilà comment j'interpréterais quelques uns de ces résultats:
    la p-value de 2011 n'est pas significative: cela signifie qu'il n'y a pas eu significativement plus ou moins de braconnage en 2011 par rapport à l'intercept (qui représente 2010??)
    Cela signifie qu'il n'y a pas eu significativement plus de braconnages en 2011 qu'en 2010.

    Pour chaque variable qualitative de p modalités, le modèle de regression fit p-1 coefficients et prend la dernière modalité pour référence. Si ca te dérange, tu peux imaginer que 2010 a pour coefficient 0.
    L'intercept est grossièrement l'effet moyen, mais pas que pour la modalité 2010 : pour le croisement de toutes les modalités de référence (une par variable qualitative).

    En résumé, on ne compare pas un coefficient d'une variable qualitative à l'intercept, mais à la modalité de référence de cette variable, c'est à dire à 0!

    La p-value de 2012 est significative: en regardant les odds-ratios on peut donc conclure qu'il y a eu plus de braconnage en 2012 car l'odd ratio est de 0.67 en 2012 contre 0.01 pour l'intercept (2010).
    Idem pour les odds ratio. La modalité de référence a un odd ratio de 1 (=exp(0)).
    Donc ici c'est plutôt l'inverse, il y a eu moins de braconnage en 2012 qu'en 2010.

    Tu constates que l'odd ratio de 2011 est extremement proche de 1 (comme la modalité de référence). Pas surprenant puisque la p value était non significative!


    Pour l'interprétation des odd ratios je te renvois à cette page :
    http://fr.wikipedia.org/wiki/Risque_relatif

    En résumé, si tu as un nombre d'actes de braconnages globalement faible par rapport à ton nombre d'observations, tu peux assimiler l'odd ratio au risque relatif, et la l'interprétation est enfantine:

    Exemple:
    0.67 en 2012 contre 1 pour la modalité de référence en 2010?
    -> Il y a eu 33% de moins d'actes de braconnages en 2012 qu'en 2010

    Sinon je ne suis pas sûre d'avoir compris la fin de tes explications:


    Est-ce que cela signifie qu'il faut que je teste la corrélation entre mes variables? (par exemple un test de Khi² entre la végétation et l'année) et si le résultat est significatif, qu'est-ce que ça veut dire en termes d'interprétation des résultats?
    Mui c'est pas très clair.
    En gros si tu veux vérifier que les influences des variables explicatives sont différentes suivant l'année, le plus simple est de rajouter les croisements entre l'année et chacune des autres variables et de regarder si la p value de ces croisements est significative.


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    glm(formula = Poaching ~ Year + Season + Veg + Safari + Year:(Season + Veg + Safari ), family = binomial)

  5. #5
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Mai 2013
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2013
    Messages : 9
    Points : 8
    Points
    8
    Par défaut
    Un énOrme MERCI pour toutes ces explications! Il m'a fallu te relire plusieurs fois mais maintenant je crois que c'est bon j'ai compris!

    Je me permets de poser une autre question pendant que j'y suis!

    Je cherche à répondre à d'autres questions cette fois-ci relatives à plusieurs espèces de grands mammifères:

    D'une part sur la composition spécifique:
    - est-ce que la composition spécifique change selon le type de végétation?
    - est-ce que la composition spécifique change selon les saisons? les années? les zones d'études?
    - est-ce que la présence des chercheurs influence la répartition des espèces?

    D'autre part sur la "densité" de chaque espèce:
    - est-ce que la densité de chaque espèce change selon chaque type de végétation? selon les saisons? selon les années?

    Comme cette fois-ci j'ai donc une variable qualitative avec plus d'une vingtaine de modalités (espèces), est-ce que je peux toujours utiliser un glm? Faut-il pour cela que je change ma variable qualitative en plusieurs variables binomiales (à savoir 1 pour la présence de chaque espèce, 0 en cas d'absence).

    Et enfin je me demandais si je contrôle bien l'effort de prospection en réalisant mes analyses de la sorte. En effet, il y a eu par exemple beaucoup plus de prospection en 2010 par exemple, ou bien plus de prospection en savane (miombo). Ca ne risque pas d'affecter mes résultats? Si oui comment pourrais-je faire pour contrôler ces différences?

Discussions similaires

  1. Réponses: 0
    Dernier message: 21/01/2013, 18h43
  2. Travailler sur des données qui doivent être triées
    Par haypo dans le forum XML/XSL et SOAP
    Réponses: 2
    Dernier message: 19/07/2003, 17h13
  3. [VB6] Comment boucler sur des controls d'un form ?
    Par lankviller dans le forum VB 6 et antérieur
    Réponses: 5
    Dernier message: 27/01/2003, 16h29
  4. Réponses: 4
    Dernier message: 15/12/2002, 04h19
  5. Zoom sur des vecteurs ou lignes
    Par mat.M dans le forum Algorithmes et structures de données
    Réponses: 7
    Dernier message: 25/11/2002, 10h40

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo