IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

calcul du R² à partir de données test


Sujet :

R

  1. #1
    Membre régulier
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    Octobre 2015
    Messages
    101
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Algérie

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : Octobre 2015
    Messages : 101
    Points : 70
    Points
    70
    Par défaut calcul du R² à partir de données test
    Bonjour,

    je souhaite avoir le coefficient de détermination d'un modèle linéaire simple sur la base de données test. pour cela je doit le calculer manuellement. j'ai trouvé dans la littérature 2 formules qui sont égales à savoir:

    R²=∑(ûi-ü)²/∑(ui-ü)² = 1-((∑uii)²/∑(ui-ü)²)
    avec :
    ui:valeurs observées
    ûi: valeurs prédites
    ü: moyenne des valeurs observée

    sauf que les deux formules ne me donnent pas le même résultat je ne comprend pas trop pourquoi, il arrive parfois que la première formule me donne R²>1 et la deuxième un R²<0 alors qu'on sais tous que R²[0:1]
    voyez vous-même

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    v<-1:60
    x<-rnorm(60, 45, 7)
    y<-rnorm(60, 5, 1.5)
    my.data<-data.frame(v, x, y)
    traindata<-subset(my.data, v%in%1:40)
    mod<-lm(y~x, data=traindata)
    testdata<-subset(my.data, v%in%41:60)
    pred<-predict(mod, testdata)
    #R²
    {u<-sum((pred-mean(testdata$y))^2)      
    w<-sum((testdata$y-mean(testdata$y))^2)
    r=(u/w)
    print(r)}
    #R² 2ème formule
    {u<-sum((testdata$y-pred)^2)      
    w<-sum((testdata$y-mean(testdata$y))^2)
    r=1-(u/w)
    print(r)}
    tout d'abord je souhaite savoir si ma démarche est cohérente
    puis où se situe le problème pour les R², est-ce que c'est mon code qui comporte une erreur?

    merci.

  2. #2
    Membre confirmé
    Inscrit en
    Février 2011
    Messages
    276
    Détails du profil
    Informations forums :
    Inscription : Février 2011
    Messages : 276
    Points : 561
    Points
    561
    Par défaut
    Bonjour,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    x <- rnorm(100)
    y <- 3*x + 2 + rnorm(100, 0, 0.75)
     
    lm1 <- lm(y~x)
    # les valeurs prédites
    yh <- predict(lm1)
     
    # première méthode
    sum((yh-mean(y))^2)/sum((y-mean(y))^2)
    [1] 0.9366354
     
    # deuxième méthode
    1-sum((yh-y)^2)/sum((y-mean(y))^2)
    [1] 0.9366354
     
    # verification
    summary(lm1)$r.squared
    [1] 0.9366354
    Ces formules sont identiques sur le jeu de données qui a servi à la calibration du modèle (voir exemple), par contre elles ne le sont pas sur le jeu de données de validation pour ce jeu puisque la droite n'est pas celles qui passent au mieux entre les points. C'est d'autant plus criant que tu n'as pas de relation entre les deux variables. Une solution consisterait à calculer la corrélation au carré entre les valeurs observées et les valeurs prédites pour le jeu de données de validation.

    cdlt

  3. #3
    Membre régulier
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    Octobre 2015
    Messages
    101
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Algérie

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : Octobre 2015
    Messages : 101
    Points : 70
    Points
    70
    Par défaut
    Bonjour,

    Une solution consisterait à calculer la corrélation au carré entre les valeurs observées et les valeurs prédites pour le jeu de données de validation
    pour avoir le R² entre y et yh il suffis de faire:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    model<-lm(y~yh)
    summary(model)
    c'est-ce pas?

    et pour une régression SVM, l'obtention du R² par cette démarche est-elle valide?

  4. #4
    Membre confirmé
    Inscrit en
    Février 2011
    Messages
    276
    Détails du profil
    Informations forums :
    Inscription : Février 2011
    Messages : 276
    Points : 561
    Points
    561
    Par défaut
    Bonjour,

    certes mais il est plus efficace de faire cor(yh, y)^2 que de faire appel à la fonction lm puis à summary qui génère tout un tas de résultats qui ne te servent à rien.
    Je ne connais pas les svm.

    cdlt

  5. #5
    Membre régulier
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    Octobre 2015
    Messages
    101
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Algérie

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : Octobre 2015
    Messages : 101
    Points : 70
    Points
    70
    Par défaut
    merci tototode pour tes réponses,

    cependant si d'autres personnes ont d'autres suggestions elles sont les biens venues.
    merci

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 3
    Dernier message: 19/05/2008, 10h36
  2. Calculs à partir de données d'un tableau Excel
    Par gwenandance dans le forum Macros et VBA Excel
    Réponses: 2
    Dernier message: 25/01/2008, 08h53
  3. [MySQL] Calcul à partir de données d'une base
    Par Stella74 dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 08/08/2007, 19h10
  4. Réponses: 7
    Dernier message: 17/04/2007, 12h48
  5. Réponses: 3
    Dernier message: 15/12/2006, 18h52

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo