IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Question de Base - Novice de R


Sujet :

R

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2021
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2021
    Messages : 7
    Points : 3
    Points
    3
    Par défaut Question de Base - Novice de R
    Bonjour,
    Actuellement à la fac, nous faisons une introduction à R. Nous sommes sur les variables qualitatives. Mais j'ai un très gros problème vis à vis de celles-ci.

    Je demande à R de m'afficher des salaires annuels par rapport à 3 diplômes : Licence, Master, Doctorat. Or R refuse de m'estimer les 3 coefficients et m'en estime seulement 2 sur les 3 (Master et Doctorat) ! (Ci joint la capture d'écran)
    Petite précision : 0 pour une licence, 1 pour un master et 2 pour un doctorat sur le modèle de base. Est-ce à cause de cela ? Selon la prof il faut absolument faire une phrase sur l'estimation des 3 coefficients...

    L'estimation de pe$educ_Licence serait donc "Tt chose égale par ailleurs, sur cette base, la détention d'une licence n'entraine pas de hausse de salaire" ??
    et pour pe$educ_Master "Tt chose égale par ailleurs, par rapport à une licence, la hausse de salaire annuel serait de 11745$" ?

    Nom : image_2021-03-02_222517.png
Affichages : 110
Taille : 191,6 Ko

    Merci,
    Samuel

  2. #2
    Membre du Club
    Femme Profil pro
    Chef d'entreprise
    Inscrit en
    Juin 2020
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Chef d'entreprise

    Informations forums :
    Inscription : Juin 2020
    Messages : 27
    Points : 40
    Points
    40
    Par défaut
    Bonjour,

    Vous ne faites pas des statistiques descriptives du jeu de données mais le résumé d'un modèle linéaire (en l'occurrence une analyse de la variance puisque vous essayez d'expliquer une variable quantitative par une qualitative).
    Votre modèle dit que le niveau de revenu s'explique (au moins) par le niveau d'étude. Les licences gagnent 62k là où les masters et doctorats gagnent respectivement 11 et 23 k de plus. Je suggère que vous traciez un plot pour comprendre ce qui se passe dans vos données.

    Si vous voulez la ligne des statistiques descriptives du jeu de donnée, il faut appliquer la fonction summary... sur le jeu de données.

    (toute ma compassion pour l'apprentissage "à l'ancienne, à la dure" de R que vous subissez)

  3. #3
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2021
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2021
    Messages : 7
    Points : 3
    Points
    3
    Par défaut
    Merci infiniment @DianeBeldame pour cette réponse claire, précise et rapide !

    Effectivement, c'est du bourrage de crâne mais bon... je m'accroche

    Est-ce que je peux vous envoyer mon modèle entier et "mes estimations" des coefficients pour me dire si cela est correcte?

  4. #4
    Membre du Club
    Femme Profil pro
    Chef d'entreprise
    Inscrit en
    Juin 2020
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Chef d'entreprise

    Informations forums :
    Inscription : Juin 2020
    Messages : 27
    Points : 40
    Points
    40
    Par défaut
    Citation Envoyé par Kingofghost Voir le message

    Est-ce que je peux vous envoyer mon modèle entier et "mes estimations" des coefficients pour me dire si cela est correcte?
    Faites un boxplot de votre variable de revenus en fonction de la variable de diplôme d'abord. Venez nous lire vos conclusions et si vraiment vous n'arrivez pas... oui, on va pas vous laisser dans la panade
    (on devrait interdire de faire le moindre modèle sans avoir tracé au moins un graphique de la variable d'intérêt.)

  5. #5
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2021
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2021
    Messages : 7
    Points : 3
    Points
    3
    Par défaut
    Citation Envoyé par DianeBeldame Voir le message
    Faites un boxplot de votre variable de revenus en fonction de la variable de diplôme d'abord. Venez nous lire vos conclusions et si vraiment vous n'arrivez pas... oui, on va pas vous laisser dans la panade
    Merci beaucoup.
    En réalité, la variable educ n'est pas la seule de mon modèle mais la prof ne demande pas de faire de graphique cette fois ci. Je pense grâce à votre aide avoir bien cerné le modèle pour le coup. Est-ce que les interpretations vous semblent correctes? Je fais le graphique en parallèle pour comprendre au mieux !

    Nom : image_2021-03-02_231931.png
Affichages : 104
Taille : 141,8 Ko


    Merci encore !

  6. #6
    Membre du Club
    Femme Profil pro
    Chef d'entreprise
    Inscrit en
    Juin 2020
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Chef d'entreprise

    Informations forums :
    Inscription : Juin 2020
    Messages : 27
    Points : 40
    Points
    40
    Par défaut
    Citation Envoyé par Kingofghost Voir le message
    la prof ne demande pas de faire de graphique cette fois ci.
    omaga ! Je suis outrée !
    Faut tout le temps en faire... c'est la bâââse ! (c'est comme ça que je viens de me rendre compte que j'avais des revenus nuls)
    (postez du code pour la suite, parce que les fleurs c'est périssable les images c'est pas copier collable)

  7. #7
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2021
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2021
    Messages : 7
    Points : 3
    Points
    3
    Par défaut
    Citation Envoyé par DianeBeldame Voir le message
    omaga ! Je suis outrée !
    Faut tout le temps en faire... c'est la bâââse ! (c'est comme ça que je viens de me rendre compte que je n'avais pas retiré les revenus nuls)
    (postez du code pour la suite, parce que les fleurs c'est périssable les images c'est pas copier collable)
    #Je viens de voir votre site ThinkR, un beau projet WOW !

    Voilà, voilà ! Effectivement, il y a des revenus nuls des chomeurs

    Pour la dernière question (Q11) je ne suis pas sur du tout. Merci beaucoup.

    #Exercice 9

    #Q1)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    library(freqparcoord)
    data(prgeng)
    #Q2) (Formules données par la prof)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    pe=prgeng[ prgeng$educ>= 13 & prgeng$educ !=15 , ]
    pe$educ=factor(pe$educ,levels=c("13","14","16"),labels=c("Licence", "Master","Doctorat"))
    pe$fem=pe$sex-1
    (de base c'était 2 pour une femme et 1 pour un homme, on fait -1 pour avoir 0 pour un homme et 1 pour une femme)

    #Q3) Je corrige mes variables
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    str(pe)
    pe$wageinc=as.numeric(pe$wageinc)
    pe$age=as.integer(pe$age)
    pe$fem=as.factor(pe$fem)
    str(pe)
    #Q4)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    Salaire=pe$wageinc
    Age=pe$age
    Sexe=pe$fem
    Diplome=pe$educ
     
    Age=na.omit(Age)
    Salaire=na.omit(Salaire)
    Sexe=na.omit(Sexe)
    Diplome=na.omit(Diplome)
    #Q5)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    a=length(Age)
    a
    #Il y a 13874 observations, c'est largement suffisant pour une estimation via les MCO.
    regA<-lm(Salaire~Age+Sexe+Diplome)
    summary(regA)
    #Q6)#Q7)#Q8) Coeffs significatifs ?
    "Oui, les 3 coefficients sont significatifs car leur p-value est inférieure à 5%
    Ce qui indique que l'on rejette les 4 hypothèses nulles où les coefficients estimés sont nuls"

    #Q10) Interprétez chaque coefficients
    "
    Toutes choses égales par ailleurs, en moyenne, le salaire moyen d'une femme diplômée d'une licence est de 53321$ annuel
    Toutes choses égales par ailleurs, en moyenne, une année d'expérience supplémentaire augmente d'environ 325$ le salaire annuel
    Toutes choses égales par ailleurs, en moyenne, un homme gagne environ 14127$ annuel de plus qu'une femme à poste égal
    Toutes choses égales par ailleurs, en moyenne, un master augmente le salaire annuel d'environ 11213$ par an par rapport à une personne détenant seulement une licence
    Toutes choses égales par ailleurs, en moyenne, un doctorat augmente le salaire annuel d'environ 20808$ par an à une personne détenant seulement une licence
    "

    #Q11) Ecrivez le modèle à la main

    Nom : image_2021-03-03_001458.png
Affichages : 106
Taille : 7,5 Ko

  8. #8
    Membre du Club
    Femme Profil pro
    Chef d'entreprise
    Inscrit en
    Juin 2020
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Chef d'entreprise

    Informations forums :
    Inscription : Juin 2020
    Messages : 27
    Points : 40
    Points
    40
    Par défaut
    On vous a dit quelles variables mettre dans le modèle ou c'est vous qui choisissez ?

  9. #9
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2021
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2021
    Messages : 7
    Points : 3
    Points
    3
    Par défaut
    Citation Envoyé par DianeBeldame Voir le message
    On vous a dit quelles variables mettre dans le modèle ou c'est vous qui choisissez ?
    La prof a indiqué dans l'énoncé lesquelles utiliser
    Edit : Ci-joint l'énoncé

    Nom : image_2021-03-03_004716.png
Affichages : 101
Taille : 141,2 Ko

  10. #10
    Membre du Club
    Femme Profil pro
    Chef d'entreprise
    Inscrit en
    Juin 2020
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Chef d'entreprise

    Informations forums :
    Inscription : Juin 2020
    Messages : 27
    Points : 40
    Points
    40
    Par défaut
    Je suppose que les réponses fournies sont celles "attendues", même si on met sous le tapis beaucoup de choses (le plan est déséquilibré, les effets d'interactions ignorés, les autres variables évincées alors que les graphes montrent une sous-population avec des revenus satellitaires par rapport aux autres et que le revenu annuel pourrait être au moins pondéré au nombre de semaines travaillées...). Mais OK, soit !

    J'ai fait un peu d'exploratoire :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
     
    library(freqparcoord)
    data(prgeng)
     
    library(tidyverse)
    library(skimr)
     
    data <- prgeng %>% as_tibble() %>% 
      filter(educ >= 13 & educ != 15) %>% # on filtre les individus dont educ est supérieur ou égal à 13 et différent de 15
      mutate(educ = case_when(educ == 13 ~ "licence", 
                              educ == 14 ~ "master", 
                              educ == 16 ~ "doctorat"),
             educ = fct_relevel(as.factor(educ), "licence", "master"), 
             sex = case_when(
               sex == 1 ~ "homme", 
               sex == 2 ~ "femme"), 
             cit = as.character(cit), 
             engl = as.character(engl), 
             birth = as.character(birth), 
             powspuma = as.character(powspuma)) %>% 
      drop_na(wageinc)
     
    data %>% skim() # une alternative à summary()
     
    ggplot(data, aes(sex, age))+ geom_boxplot()
    data %>% filter(wageinc>= 300000) # mais qui sont ces gens ? 
    ggplot(data, aes(sex))+ geom_bar()
    ggplot(data, aes(educ))+ geom_bar()
    ggplot(data, aes(wageinc, color = sex))+ geom_density()
    ggplot(data, aes(wageinc, color = educ))+ geom_density()
    ggplot(data, aes(age, wageinc, color = sex))+ geom_point() + facet_grid(sex ~ educ)
     
    data %>% filter(wageinc>= 300000) %>% count(occ) 
    data %>% count(occ)

  11. #11
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2021
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2021
    Messages : 7
    Points : 3
    Points
    3
    Par défaut
    Bonjour Diane,

    Wow super, merci! Je doute que ma prof sache faire tout ça... , on aurait surement tous mieux compris avec cette pédagogie... m'enfin....

    Effectivement, cela n'a rien à voir avec ce qu'on a pu voir en cours... peut-être soumettre le modèle à ma prof lors du prochain TD? Mais j'ai peur qu'elle se vexe qd même...

    Les graphiques montrent vachement la disparité des hommes/femmes à diplôme égal c'est interessant !

    En revanche, j'ai du mal à comprendre les résultats de la fonction data %>% skim() p/r à ceux d'un summary(lm(....~...)) classique
    Et si j'ai bien compris également les %...% ne changent rien à la fonction, juste pour gagner visibilité?

  12. #12
    Membre du Club
    Femme Profil pro
    Chef d'entreprise
    Inscrit en
    Juin 2020
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Chef d'entreprise

    Informations forums :
    Inscription : Juin 2020
    Messages : 27
    Points : 40
    Points
    40
    Par défaut
    Je doute que ma prof sache faire tout ça...
    Je ne me permettrais pas de juger

    un summary d'un dataset (summary(dataset) ) comme avec skimr va proposer un résumé du jeu de données (min, max, moyenne, écart-type ou comptages quand il s'agit de variables quantitatives, données manquantes etc...)
    C'est la première chose à faire quand on se retrouve face à un dataset inconnu. La deuxième étant de tracer des plots.
    Alors qu'un summary(lm(modèle)) va nous permettre d'accéder aux infos essentielles du modèle linéaire (table d'anova, calcul des paramètres...)

    En lui demandant summary(untruc) ou plot(untruc), R essaiera toujours de nous faire "un truc" pour nous faire plaisir (genre plot(iris) renvoie un graphe alors qu'on ne spécifie pas exactement les variables du graphe)

  13. #13
    Membre du Club
    Femme Profil pro
    Chef d'entreprise
    Inscrit en
    Juin 2020
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Chef d'entreprise

    Informations forums :
    Inscription : Juin 2020
    Messages : 27
    Points : 40
    Points
    40
    Par défaut
    %>% se fait avec la touche ctrl+M (comme magritte - attention ctrl+% qui va modifier la disposition de la fenêtre, il suffit de refaire ctrl+% pour revenir à l'état intial) et se lit "ensuite" : https://thinkr.fr/utiliser-la-gramma...r-ses-donnees/

  14. #14
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2021
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2021
    Messages : 7
    Points : 3
    Points
    3
    Par défaut
    Citation Envoyé par DianeBeldame Voir le message
    %>% se fait avec la touche ctrl+M (comme magritte - attention ctrl+% qui va modifier la disposition de la fenêtre, il suffit de refaire ctrl+% pour revenir à l'état intial) et se lit "ensuite" : https://thinkr.fr/utiliser-la-gramma...r-ses-donnees/
    Ah oui , j'ai trouvé ça aussi ! Sympa !

    et du coup êtes vous OK pour ce modèle ajusté ? Enfin surtout la notation de la variable "Diplome" qui peut prendre 3 données , je suis un peu perdu

    Nom : image_2021-03-03_001458.png
Affichages : 104
Taille : 7,5 Ko

  15. #15
    Candidat au Club
    Femme Profil pro
    Assistant aux utilisateurs
    Inscrit en
    Avril 2024
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Assistant aux utilisateurs

    Informations forums :
    Inscription : Avril 2024
    Messages : 2
    Points : 3
    Points
    3
    Par défaut Stats R
    Oui c'est en effet la base de la base ! Pour les test, tu peux utiliser les commandes suivantes qui peuvent t'aider également , je les utilise très régulièrement
    X2 x^2
    √ sqrt()

    summary(tableau1)
    var(tableau1$VD1)
    sd(tableau1$VD1)
    cov(tableau1$VD1, tableau1$VD2)
    cor(tableau1$VD1, tableau1$VD2)
    cor.test(tableau1$VD1, tableau1$VD2)

    t.test(x, mu=B, alternative="greater", var.equal=T)
    t.test(x, mu=B, alternative="less", var.equal=T)
    t.test(x1,x2, paired=T, alternative="greater", var.equal=T)
    t.test(x1,x2, paired=T, alternative="less", var.equal=T)
    t.test(x1,x2, paired=F, alternative="two.sided", var.equal=T)
    T critique/ qt(p=x , df=ddl , lower.tail=F)

    plot (x , y)
    ab <- lm(y ~ x)
    plot (x , y)+abline (ab)
    a <- cov(x , y)/var(x)
    b <- mean(y)-a*mean(x)

    main= " titre principal "
    xlab="titre x"
    ylab="titre y"
    xlim= c(min x, max x)
    ylim= c(min y, max y)
    col="couleur"

    barplot(x,y)
    arrows()
    names.arg=c(" "," ")
    boxplot
    names= c(" "," ")

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Question de base sur les classes
    Par deaven dans le forum C++
    Réponses: 3
    Dernier message: 27/11/2005, 16h20
  2. Réponses: 4
    Dernier message: 20/11/2005, 21h46
  3. question de base
    Par tuxedo dans le forum Langage SQL
    Réponses: 11
    Dernier message: 05/04/2005, 15h28
  4. [Débutant] Question de base sur le BDE et les SGBD
    Par Invité dans le forum Bases de données
    Réponses: 3
    Dernier message: 15/03/2005, 08h45
  5. Question de base
    Par xinu1.1 dans le forum PostgreSQL
    Réponses: 8
    Dernier message: 03/02/2005, 22h14

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo