IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Problème summary (regression)


Sujet :

R

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2016
    Messages : 3
    Points : 1
    Points
    1
    Par défaut Problème summary (regression)
    Bonjour,

    Je m'excuse d'avance si je ne poste pas dans la bonne section, mais je crois que c'est la bonne.

    Je suis étudiant en licence d'économie et cette année nous travaillons via le logiciel R.
    Je dois faire un mini mémoire en économétrie et c'est dans ce cadre que j'utilise R et que j'ai besoin de vous.

    En faites mon soucis est que lorsque j'utilise le fonction summary après avoir fait une régression, je n'ai pas seulement la significativité de l'entête de la colonne (donc la variable), mais de tout ce qui suit aussi.
    Je ne pense pas que ce je dis là est clair donc je vais donner un exemple.
    Admettons que j'ai une colonne intitulé Etablissement et un autre Taux de Femme, qui sont les variables explicatives, et que j'ai Salaire brut annuel comme variable expliquée
    Je fais ensuite la regression et j'utilise la fonction Summary. Je dois obtenir normalement dans ma console la significativité de la variable Etablissement et celle de la variable " Taux de Femme"
    Cependant ce que j'ai dans ma console c'est Etablissement Dauphine, Etablissement Descartes, Etablissement Sorbonne et Taux de Femme 90% Taux de Femme 89% etc... et j'ai leur signficativité.
    Donc en faites au lieu d'avoir 2 lignes dans ma console j'en ai beaucoup plus, si j'ai 1500 noms d'établissement, j'aurais 1500 lignes avec la significativité de chacun de ces établissements

    Ma base de donnée contient environ 16 variables (16 colonnes) et environ 4000 lignes, je l'ai téléchargé sur data.gouv puis modifié, j'ai fais retiré les virgules et j'ai mis des "." à la place des espaces pour le nom des variables. Cependant j'ai des taux et donc des %, si je les passe en nombre j'ai des virgules et si je modifie ces virgules ça devient du texte sur excel du coup je suis obligé de laisser les %.

    Voilà comment j'importe ma base :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    base <-read.csv2("C:/Users/Blablabla/Base de donnée memoire.csv",header=TRUE)
    Ensuite je crée base1, base où sont supprimés les lignes où des informations sont manquantes
    Ensuite je passe 3 de mes variables sous log (les autres étant des % ou des variables qualitatives).
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    base1$lSalaire.brut.annuel<-log(base1$Salaire.brut.annuel)
    base1$lSalaire.net.mensuel.regional<-log(base1$Salaire.net.mensuel.regional)
    base1$lSalaire.net.median.des.emplois.a.temps.plein<-log(base1$Salaire.net.median.des.emplois.a.temps.plein)
    Ensuite la régression :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    reg <- lm(lSalaire.brut.annuel ~ lSalaire.net.median.des.emplois.a.temps.plein + lSalaire.net.mensuel.regional+ Taux.insertion + Taux.emplois.cadre + Taux.emplois.a.temps.plein + Taux.emplois.stables + Taux.diplomes.Boursiers + Taux.Femmes + Taux.emplois.exterieurs.a.la.region +Taux.emplois.cadre.ou.professions.intermediaire +Etablissement+Discipline+Delai.insertion, data=base1)
    Et enfin le summary
    Là normalement je devrais avoir dans ma console environ 15 lignes (mes variables explicatives) mais j'en ai beaucoup plus, j'ai le nom de tous les établissements, toutes les disciplines, tous les taux de femme etc.... Or moi ce qui m'intéresse c'est de savoir si la variable Etablissement est significatif et non pas les variables Etablissement Dauphine, Etablissement Sorbonne etc...

    Mes connaissances sont très limités sur ce sujet, donc je ne sais pas si j'ai utilisé des termes ou une expression qui vous fera mal à la tête (auquel cas je m'excuse). Je pourrais vous envoyer des screens si jamais vous avez du mal à comprendre ce que j'ai écrit.

    Merci d'avance pour votre temps & votre patience

    Ps : Ci joint un lien drive de ma base de donnée (en csv) :
    https://drive.google.com/open?id=0B8...jEwS25ubl8wVVU

  2. #2
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Novembre 2016
    Messages
    66
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Novembre 2016
    Messages : 66
    Points : 40
    Points
    40
    Par défaut
    bonjour ;
    desoler de ne pas pouvoir vous aider mais j'ai quand meme une qst
    la regression est entre deux variable ou plus d'aprés ce que j'ai compris , parceque en faite entre deux variable on peux utiliser la fonction cor tous simplement mais si on a plus de variable là on a besoin de de faire une regression lineaire multiple non,?
    bonne journée

  3. #3
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2016
    Messages : 3
    Points : 1
    Points
    1
    Par défaut
    Salut, déjà merci beaucoup de m'avoir répondu ^^

    En faites ce n'était qu'un exemple ce que j'avais écrit ci dessus, je n'ai pas que deux variables donc je ne peux pas utiliser la fonction cor.
    J'en ai plusieurs et dans notre cours on a vu que lorsque l'on avait plusieurs variables, on utilisait la fonction reg.
    Je suis pas très calé en la matière donc peut-être que je disais de grosse connerie ^^

    En faites mon problème c'est que quand je fais le summary de la regression que j'ai faites, je n'ai pas la significativité de la variable Etablissement et la variable Discipline, mes deux variables qualitatives.

    J'ai à chaque fois Etablissement Descartes
    Etablissement Sorbonne
    Etablissement etc....
    avec leur significativité etc... (pareil pour la variable discipline, j'ai discipline economie, discipline droit etc...)
    Moi je voudrais juste " Etablissement " et " Discipline " ainsi que leur significativité.
    Parce qu'avec ça je n'arrive pas à voir si ces variables sont significatifs (pour le salaire brut annuel) vu que j'ai que la significativité de tous les établissements et disciplines mais de façon individuelle.

    Merci encore d'avoir répondu ^^

  4. #4
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Novembre 2016
    Messages
    66
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Novembre 2016
    Messages : 66
    Points : 40
    Points
    40
    Par défaut
    Bonjour,
    Donc ce qu'il te faut et de les comparer deux à deux c'est bien ca ?

    parceque en faite je pense pas que le probleme est dans la fonction summary mais dans le choix du test et de ce que tu veux obtenir au final parceque d'aprés mes connaissances limites en analysant par exemple la moyenne entre deux variable x, y on utilise t.test mais si on en a plus x , y et z par ex , on devrai faire un ANOVA et dans ce cas là le resultat summary nous donne comme t'as obtenu dans ton cas et pour pouvoir les comparer deux à deux il faut faire les test post ANOVA comme pairewise.t.test . ca c'est pour la moyenne pour la regression j'ai pas vraiment une idée qui pourrait vous au final je vous dis bon courage j'espere que t'auras une réponse le plus tot
    bonne soirée

  5. #5
    Membre habitué
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Décembre 2015
    Messages
    72
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Décembre 2015
    Messages : 72
    Points : 180
    Points
    180
    Par défaut
    Bonjour,

    Pour tester la significativé de la variable, ce n'est pas la fonction summary qu'il faut utiliser, mais les fonctions anova (package stats) ou Anova (package car) selon les tests que vous réalisez. Si j'ai bien compris, ce ne sont que des variables continues, il vaut mieux alors utliser anova (sans majuscule).

    La fonction summary teste la différence à zéro de chaque coefficient (Quel proba que le coefficient soit non nul).

    Cordialement


    VV

  6. #6
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2016
    Messages : 3
    Points : 1
    Points
    1
    Par défaut
    Merci à tous les deux pour vos réponses

    Le soucis c'est qu'en faites on doit un peu suivre l'exemple du professeur et utiliser ce qu'on a vu en TD et l'appliquer (y'a une vidéo tutoriel qui est censé être notre " guide ")
    On a toujours utiliser Summary et jamais le professeur n'a mentionné la fonction Anova (sous R), jusqu'à vous lire je ne savais même pas que cette fonction existait. J'aurais dû faire d'avantage de recherche^^.

    Je vais donc essayer la fonction Anova.
    Merci encore (c'est vraiment sympa à vous de prendre du temps pour m'apprendre des choses / m'aider ^^).

    Bonne semaine à vous !

  7. #7
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Bonjour,

    Une petite remarque en complément : votre variable "établissement" contient des noms d'établissements, il s'agit donc d'une variable catégorielle et non continue. Si vous utilisez cette variable au sein d'un modèle de régression, vous obtiendrez un coefficient estimé pour chacune des catégories moins une (celle utilisée comme catégorie de référence).

    Bonne continuation !


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  8. #8
    Membre à l'essai
    Femme Profil pro
    Étudiant
    Inscrit en
    Avril 2014
    Messages
    21
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 33
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Santé

    Informations forums :
    Inscription : Avril 2014
    Messages : 21
    Points : 17
    Points
    17
    Par défaut
    Bonjour,

    Je pense que depuis le temps tu as trouvé une solution mais peut-être que cela pourra aider quelqu'un d'autre.
    Si tu introduis une variable catégorielle à plus de deux (n) classes dans un modèle, elle sera automatiquement recodée en n-1 variables binaires et c'est ce qui expliques que tu aies n-1 lignes dans ton summary.
    Si tu veux avoir l'effet global de ta variable, il faut utiliser la fonction drop1(), de cette façon pour un modèle de régression logistique :
    Code R : Sélectionner tout - Visualiser dans une fenêtre à part
    drop1(modele,.~.,test="Chisq")

    Et de cette façon dans une régression linéaire multiple :
    Code R : Sélectionner tout - Visualiser dans une fenêtre à part
    drop1(modele,.~.,test="F")

Discussions similaires

  1. Problème summary d'une anova
    Par Fnouch dans le forum R
    Réponses: 7
    Dernier message: 06/05/2013, 12h42
  2. Problème de PROMPT SUMMARY
    Par carine.ey dans le forum Webi
    Réponses: 4
    Dernier message: 20/06/2012, 10h17
  3. [Débutant] Probléme avec Visual Studio 2010 --> regression
    Par yann458 dans le forum Visual Studio
    Réponses: 2
    Dernier message: 01/06/2012, 16h56
  4. problème avec summary
    Par héloiise dans le forum R
    Réponses: 2
    Dernier message: 20/05/2011, 09h54
  5. SandCastle problème avec le <summary>
    Par GreatDeveloperOnizuka dans le forum EDI/Outils
    Réponses: 0
    Dernier message: 13/04/2011, 16h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo