1. #1
    Membre du Club
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    octobre 2015
    Messages
    61
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : Algérie

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : octobre 2015
    Messages : 61
    Points : 44
    Points
    44

    Par défaut calcul du R² à partir de données test

    Bonjour,

    je souhaite avoir le coefficient de détermination d'un modèle linéaire simple sur la base de données test. pour cela je doit le calculer manuellement. j'ai trouvé dans la littérature 2 formules qui sont égales à savoir:

    R²=∑(ûi-ü)²/∑(ui-ü)² = 1-((∑uii)²/∑(ui-ü)²)
    avec :
    ui:valeurs observées
    ûi: valeurs prédites
    ü: moyenne des valeurs observée

    sauf que les deux formules ne me donnent pas le même résultat je ne comprend pas trop pourquoi, il arrive parfois que la première formule me donne R²>1 et la deuxième un R²<0 alors qu'on sais tous que R²[0:1]
    voyez vous-même

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    v<-1:60
    x<-rnorm(60, 45, 7)
    y<-rnorm(60, 5, 1.5)
    my.data<-data.frame(v, x, y)
    traindata<-subset(my.data, v%in%1:40)
    mod<-lm(y~x, data=traindata)
    testdata<-subset(my.data, v%in%41:60)
    pred<-predict(mod, testdata)
    #R²
    {u<-sum((pred-mean(testdata$y))^2)      
    w<-sum((testdata$y-mean(testdata$y))^2)
    r=(u/w)
    print(r)}
    #R² 2ème formule
    {u<-sum((testdata$y-pred)^2)      
    w<-sum((testdata$y-mean(testdata$y))^2)
    r=1-(u/w)
    print(r)}
    tout d'abord je souhaite savoir si ma démarche est cohérente
    puis où se situe le problème pour les R², est-ce que c'est mon code qui comporte une erreur?

    merci.

  2. #2
    Membre régulier
    Inscrit en
    février 2011
    Messages
    51
    Détails du profil
    Informations forums :
    Inscription : février 2011
    Messages : 51
    Points : 96
    Points
    96

    Par défaut

    Bonjour,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    x <- rnorm(100)
    y <- 3*x + 2 + rnorm(100, 0, 0.75)
     
    lm1 <- lm(y~x)
    # les valeurs prédites
    yh <- predict(lm1)
     
    # première méthode
    sum((yh-mean(y))^2)/sum((y-mean(y))^2)
    [1] 0.9366354
     
    # deuxième méthode
    1-sum((yh-y)^2)/sum((y-mean(y))^2)
    [1] 0.9366354
     
    # verification
    summary(lm1)$r.squared
    [1] 0.9366354
    Ces formules sont identiques sur le jeu de données qui a servi à la calibration du modèle (voir exemple), par contre elles ne le sont pas sur le jeu de données de validation pour ce jeu puisque la droite n'est pas celles qui passent au mieux entre les points. C'est d'autant plus criant que tu n'as pas de relation entre les deux variables. Une solution consisterait à calculer la corrélation au carré entre les valeurs observées et les valeurs prédites pour le jeu de données de validation.

    cdlt

  3. #3
    Membre du Club
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    octobre 2015
    Messages
    61
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : Algérie

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : octobre 2015
    Messages : 61
    Points : 44
    Points
    44

    Par défaut

    Bonjour,

    Une solution consisterait à calculer la corrélation au carré entre les valeurs observées et les valeurs prédites pour le jeu de données de validation
    pour avoir le R² entre y et yh il suffis de faire:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    model<-lm(y~yh)
    summary(model)
    c'est-ce pas?

    et pour une régression SVM, l'obtention du R² par cette démarche est-elle valide?

  4. #4
    Membre régulier
    Inscrit en
    février 2011
    Messages
    51
    Détails du profil
    Informations forums :
    Inscription : février 2011
    Messages : 51
    Points : 96
    Points
    96

    Par défaut

    Bonjour,

    certes mais il est plus efficace de faire cor(yh, y)^2 que de faire appel à la fonction lm puis à summary qui génère tout un tas de résultats qui ne te servent à rien.
    Je ne connais pas les svm.

    cdlt

  5. #5
    Membre du Club
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    octobre 2015
    Messages
    61
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : Algérie

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : octobre 2015
    Messages : 61
    Points : 44
    Points
    44

    Par défaut

    merci tototode pour tes réponses,

    cependant si d'autres personnes ont d'autres suggestions elles sont les biens venues.
    merci

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 3
    Dernier message: 19/05/2008, 11h36
  2. Calculs à partir de données d'un tableau Excel
    Par gwenandance dans le forum Macros et VBA Excel
    Réponses: 2
    Dernier message: 25/01/2008, 09h53
  3. Calcul à partir de données d'une base
    Par Stella74 dans le forum PHP & MySQL
    Réponses: 1
    Dernier message: 08/08/2007, 20h10
  4. Réponses: 7
    Dernier message: 17/04/2007, 13h48
  5. Réponses: 3
    Dernier message: 15/12/2006, 19h52

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo