IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Interprétation des résultats du modèle linéaire sur R


Sujet :

R

  1. #1
    Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Novembre 2014
    Messages
    41
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2014
    Messages : 41
    Points : 41
    Points
    41
    Par défaut Interprétation des résultats du modèle linéaire sur R
    Bonjour,

    Je voudrais savoir comment peut on interpréter les résultats ci-dessous affiché par R après avoir choisi un modèle linéaire ?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    Call:
    lm(formula = y ~ dose, data = X)
     
    Residuals:
       Min     1Q Median     3Q    Max 
    -5.667 -1.533  1.333  2.333  3.467 
     
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)   7.5333     0.7884   9.555 2.60e-10 ***
    dosefort      7.1333     1.1150   6.398 6.32e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
     
    Residual standard error: 3.053 on 28 degrees of freedom
    Multiple R-squared:  0.5938,	Adjusted R-squared:  0.5793 
    F-statistic: 40.93 on 1 and 28 DF,  p-value: 6.319e-07

  2. #2
    Membre éprouvé
    Avatar de Haache
    Homme Profil pro
    Doctorant & Ingénieur Statiaticien Economiste
    Inscrit en
    Mars 2014
    Messages
    349
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : Canada

    Informations professionnelles :
    Activité : Doctorant & Ingénieur Statiaticien Economiste

    Informations forums :
    Inscription : Mars 2014
    Messages : 349
    Points : 1 009
    Points
    1 009
    Billets dans le blog
    8
    Par défaut
    Bonjour

    Votre question est un peu générale. Vous voulez connaitre l'interprétation de quoi au juste?
    Sur la sortie, il y a d'abord quelques statistiques descriptives concernant les résidus du modèle (pour moi, ils n'ont pas un intérêt statistique très remarquable).

    Ce qui est très important c'est la significativité de vos variables, la significativité globale du modèle, le pouvoir explicatif du modèle.

    Je suggère que votre question soit un peu plus spécifique.
    • Faites un tour sur mon siteweb professionnel www.aristideelysee.16mb.com Des codes dans la section "media et code" pouvant vous aider que vous pouvez aussi partager sur les réseaux sociaux.
    • Visiter mon blog en cliquant ici! Des techniques, astuces et macros pour l'analyse quantitative.

  3. #3
    Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Novembre 2014
    Messages
    41
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2014
    Messages : 41
    Points : 41
    Points
    41
    Par défaut
    Citation Envoyé par Haache Voir le message
    Bonjour

    Votre question est un peu générale. Vous voulez connaitre l'interprétation de quoi au juste?
    Sur la sortie, il y a d'abord quelques statistiques descriptives concernant les résidus du modèle (pour moi, ils n'ont pas un intérêt statistique très remarquable).

    Ce qui est très important c'est la significativité de vos variables, la significativité globale du modèle, le pouvoir explicatif du modèle.

    Je suggère que votre question soit un peu plus spécifique.
    Justement je ne sais pas ce qui doit être interprété pour évaluer la performance d'un modèle pour dire par exemple que ce modèle est meilleur que l'autre, il me semble qu'on s’intéresse à quelques sorties en particulier mais j'ignore les quelles

  4. #4
    Membre éprouvé
    Avatar de Haache
    Homme Profil pro
    Doctorant & Ingénieur Statiaticien Economiste
    Inscrit en
    Mars 2014
    Messages
    349
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : Canada

    Informations professionnelles :
    Activité : Doctorant & Ingénieur Statiaticien Economiste

    Informations forums :
    Inscription : Mars 2014
    Messages : 349
    Points : 1 009
    Points
    1 009
    Billets dans le blog
    8
    Par défaut
    Bonjour

    Plusieurs facteurs sont à analyser

    1- Une régression est d'abord basée sur une considération théorique. C'est à dire que les résultats d'une régressions eux mêmes ne permettent pas de discriminer les modèles. Les résultats peuvent être statistiquement vrais alors qu'en réalité insensés. C'est à dire qu'il faut expliquer une variable par d'autres facteurs explicatifs qui sont supposés expliqués la variable dépendante selon la littérature. Donc il faut faire une revue de littérature et recenser les facteurs explicatifs candidats. Il faut que le choix soit le plus exhaustif possible, car la non prise en compte peut biaiser les résultats, quand bien même les tests statistiques sont vrais

    2-Si la première étape est bien effectuée, le reste revient à comparer les sorties comme vous l'avez bien dit. La statistique F en bas avec sa probabilité permet de vérifier la significativité globale du modèle. Il faut que la p.value soit très faible (< 1%). Ce qui est bien le cas

    3- Si c'est une régression linéaire avec la méthode des moindre carrés par exemple, le premier indicateur important est le coefficient de détermination, R^2. Si le R^2 est faible, pas question moi personnellement je doute des résultats. Le R^2 est la part de la variation de la variable dépendante qui est expliquée par les facteurs explicatifs. Donc si c'est faible alors le modèle n'a pas un pouvoir explicatif élevé.

    4- Il y a aussi les tests sur les résidus pour valider le modèle. Généralement, on vérifie l'homoscédasticité la non autocorrélation et la normalité des résidus.

    5- La significativité des variables. Il faut que les p.value soient inférieur au seuil retenu (souvent 5%) pour qu'on confirme l'importance de la variable dans le modèle. Comme dans votre exemple, les p.values sont < 5% donc les variables sont significatives. Elles sont importantes dans l'explication de la variable dépendante. Mais votre R^2 parait un peu faible 0.5 c'est douteux. Vous pouvez chercher aussi des indicateurs comme Durbin Watson (c'est bon quand c'est autour de 2, il y a un test pour ça)

    Les autres indicateurs ne sont pas trop importants. Il s'agit de la distribution des résidus que vous avez au début. S'aurait été mieux si vous tracer la courbe des résidus par exemple pour voir comment ils se comportent. Sinon les indicateurs qu'il y a comme min max médiane etc... je ne pense pas que ça soit utile se les interpréter
    Vous avez aussi la somme des carrés des résidus, qui n'est plus utile étant donné qu'on a interprété le R^2
    Il y a d'autres indicateurs comme l'écart type des estimateurs et la t-statistique. Vous n'avez pas besoin de les interpréter. Ces indicateurs ont permis de calculer la p.value.

    En gros c'est tout ce que je peux dire
    • Faites un tour sur mon siteweb professionnel www.aristideelysee.16mb.com Des codes dans la section "media et code" pouvant vous aider que vous pouvez aussi partager sur les réseaux sociaux.
    • Visiter mon blog en cliquant ici! Des techniques, astuces et macros pour l'analyse quantitative.

  5. #5
    Membre éclairé
    Homme Profil pro
    Chercheur
    Inscrit en
    Décembre 2015
    Messages
    327
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2015
    Messages : 327
    Points : 793
    Points
    793
    Par défaut
    1) Pour compléter la réponse de Haache en ce qui concerne l'interprétation des résultats de la procédure lm, voici quelques diapositives que j'ai extrait d'un cours que je fais sur l'utilisation de R. Un petit point pratique quand on utilise les tests de qualité comme le tracé des résidus, l'interprétation est généralement facilité si on a pris soin de regrouper avant l'analyse les individus appartenant au même groupe (même niveau du facteur) sur des lignes consécutives. En ce qui concerne les résidus, on préférera les résidus studentisés (rstudent).

    2) En ce qui concerne la comparaison de modèle, on peut utiliser la fonction anova, à condition que les modèles soient emboités. De manière plus générale, la recherche du modèle peut se faire par la fonction stepAIC du package MASS.
    Images attachées Images attachées

  6. #6
    Membre à l'essai
    Femme Profil pro
    Ingénieur
    Inscrit en
    Novembre 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Aisne (Picardie)

    Informations professionnelles :
    Activité : Ingénieur

    Informations forums :
    Inscription : Novembre 2015
    Messages : 9
    Points : 14
    Points
    14
    Par défaut
    Bonjour,

    Un petit soucis d'interprétation : Mon modèle est significatif mais la comparaison deux à deux n'amène aucune différence significative. Je ne comprends pas bien pourquoi...


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    > ano<-lm(perf~TRT, data=D2)
    > print(summary(ano))
     
    Call:
    lm(formula = perf ~ TRT, data = D2)
     
    Residuals:
          Min        1Q    Median        3Q       Max 
    -0.137155 -0.040608 -0.004107  0.047369  0.119173 
     
    Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  0.161757   0.013144  12.306   <2e-16 ***
    TRT2900   0.036060   0.020078   1.796   0.0764 .  
    TRT2950  -0.001857   0.019392  -0.096   0.9239    
    TRT3000   0.045174   0.019717   2.291   0.0247 *  
    TRT3100   0.041504   0.020484   2.026   0.0462 *  
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
     
    Residual standard error: 0.05878 on 77 degrees of freedom
      (18 observations deleted due to missingness)
    Multiple R-squared:  0.1199,	Adjusted R-squared:  0.07415 
    F-statistic: 2.622 on 4 and 77 DF,  p-value: 0.04115
     
    > lsmeans(ano, pairwise~TRT, adjust="tukey")
    $lsmeans
     TRT    lsmean         SE df  lower.CL  upper.CL
     2800   0.1617570 0.01314439 77 0.1355832 0.1879308
     2900   0.1978167 0.01517784 77 0.1675937 0.2280396
     2950   0.1598997 0.01425710 77 0.1315102 0.1882892
     3000   0.2069307 0.01469588 77 0.1776674 0.2361939
     3100   0.2032605 0.01571056 77 0.1719768 0.2345442
     
    Confidence level used: 0.95 
     
    $contrasts
     contrast        estimate         SE df t.ratio p.value
     2800 - 2900 -0.036059694 0.02007839 77  -1.796  0.3834
     2800 - 2950  0.001857310 0.01939175 77   0.096  1.0000
     2800 - 3000 -0.045173670 0.01971659 77  -2.291  0.1589
     2800 - 3100 -0.041503521 0.02048406 77  -2.026  0.2635
     2900 - 2950  0.037917004 0.02082382 77   1.821  0.3693
     2900 - 3000 -0.009113976 0.02112666 77  -0.431  0.9926
     2900 - 3100 -0.005443827 0.02184464 77  -0.249  0.9991
     2950 - 3000 -0.047030980 0.02047520 77  -2.297  0.1570
     2950 - 3100 -0.043360831 0.02121524 77  -2.044  0.2554
     3000 - 3100  0.003670149 0.02151256 77   0.171  0.9998
     
    P value adjustment: tukey method for comparing a family of 5 estimates

  7. #7
    Membre éclairé
    Homme Profil pro
    Chercheur
    Inscrit en
    Décembre 2015
    Messages
    327
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2015
    Messages : 327
    Points : 793
    Points
    793
    Par défaut
    La significativité de l'analyse est faible (p de l'ordre de 0.04), cela signifie que les différences entre moyennes des groupes ne sont pas très grandes, ce que confirme le résultat de summary. En effet, si tu as utilisé les options par défaut de R, les coefficients estimés sont les différences entre le niveau n et le 1er niveau du facteur. L'intervalle de confiance de ces coefficients au niveau 95% est environ la valeur Estimate moins ou plus 2 * l'erreur standard (Std. Error). Il n'y a donc que le quatrième niveau qui est relativement différent du premier niveau, les autres niveaux, vu les valeurs signées du coefficients, ont pratiquement tous la même moyenne.

    Dans summary, la p-value est celle du coefficient individuel (test disjonctif) et non celle de l'ensemble des coefficients qui devraient alors tenir compte qu'ils sont corrélés entre eux (étant la différence à une valeur commune). Pour tenir compte de cette corrélation, il faudrait utiliser la correction de Dunnett car il n'y a que quatre estimations corrélées entre elles. Dans lsmeans, tu utilises le test de Tukey, c'est-à-dire la corrélation des comparaisons deux à deux et il y en a 10. C'est un test conjonctif, c'est-à-dire que tu testes différence 1 ET différence 2 ET ... De ce fait, la correction des comparaisons multiples est plus sévère et comme ton modèle est faiblement significatif, il te renvoie qu'il est incapable dans ces conditions de te dire quelle(s) moyenne(s) diffère(nt) des autres.

    Une solution est de forcer le paramètre adjust à fdr. Une autre serait sans doute d'utiliser un autre contraste (eff ou del.eff, voir la page d'aide des contrastes pairwise.lsmc) avec l'ajustement par défaut.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Interprétation des résultats
    Par bahiatoon dans le forum Traitement d'images
    Réponses: 6
    Dernier message: 25/03/2009, 13h28
  2. [TPTP] [DEBUTANT]TPTP configuration et interprétation des résultats.
    Par inconnu652000 dans le forum Tests et Performance
    Réponses: 1
    Dernier message: 18/11/2008, 16h43
  3. SQLIO - Interprétation des résultats
    Par Ptit_Dje dans le forum MS SQL Server
    Réponses: 4
    Dernier message: 29/04/2008, 10h54
  4. [MySQL] Affichage des résultats d'une requête sur plusieurs pages
    Par leloup84 dans le forum PHP & Base de données
    Réponses: 2
    Dernier message: 25/10/2006, 14h24
  5. DBCC SQLPERF ( LOGSPACE ) Interprétation des résultats
    Par Labienus dans le forum MS SQL Server
    Réponses: 4
    Dernier message: 20/07/2004, 16h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo