Bonjour,
Je m'excuse d'avance si je ne poste pas dans la bonne section, mais je crois que c'est la bonne.
Je suis étudiant en licence d'économie et cette année nous travaillons via le logiciel R.
Je dois faire un mini mémoire en économétrie et c'est dans ce cadre que j'utilise R et que j'ai besoin de vous.
En faites mon soucis est que lorsque j'utilise le fonction summary après avoir fait une régression, je n'ai pas seulement la significativité de l'entête de la colonne (donc la variable), mais de tout ce qui suit aussi.
Je ne pense pas que ce je dis là est clair donc je vais donner un exemple.
Admettons que j'ai une colonne intitulé Etablissement et un autre Taux de Femme, qui sont les variables explicatives, et que j'ai Salaire brut annuel comme variable expliquée
Je fais ensuite la regression et j'utilise la fonction Summary. Je dois obtenir normalement dans ma console la significativité de la variable Etablissement et celle de la variable " Taux de Femme"
Cependant ce que j'ai dans ma console c'est Etablissement Dauphine, Etablissement Descartes, Etablissement Sorbonne et Taux de Femme 90% Taux de Femme 89% etc... et j'ai leur signficativité.
Donc en faites au lieu d'avoir 2 lignes dans ma console j'en ai beaucoup plus, si j'ai 1500 noms d'établissement, j'aurais 1500 lignes avec la significativité de chacun de ces établissements
Ma base de donnée contient environ 16 variables (16 colonnes) et environ 4000 lignes, je l'ai téléchargé sur data.gouv puis modifié, j'ai fais retiré les virgules et j'ai mis des "." à la place des espaces pour le nom des variables. Cependant j'ai des taux et donc des %, si je les passe en nombre j'ai des virgules et si je modifie ces virgules ça devient du texte sur excel du coup je suis obligé de laisser les %.
Voilà comment j'importe ma base :
base <-read.csv2("C:/Users/Blablabla/Base de donnée memoire.csv",header=TRUE)
Ensuite je crée base1, base où sont supprimés les lignes où des informations sont manquantes
Ensuite je passe 3 de mes variables sous log (les autres étant des % ou des variables qualitatives).
1 2 3
| base1$lSalaire.brut.annuel<-log(base1$Salaire.brut.annuel)
base1$lSalaire.net.mensuel.regional<-log(base1$Salaire.net.mensuel.regional)
base1$lSalaire.net.median.des.emplois.a.temps.plein<-log(base1$Salaire.net.median.des.emplois.a.temps.plein) |
Ensuite la régression :
reg <- lm(lSalaire.brut.annuel ~ lSalaire.net.median.des.emplois.a.temps.plein + lSalaire.net.mensuel.regional+ Taux.insertion + Taux.emplois.cadre + Taux.emplois.a.temps.plein + Taux.emplois.stables + Taux.diplomes.Boursiers + Taux.Femmes + Taux.emplois.exterieurs.a.la.region +Taux.emplois.cadre.ou.professions.intermediaire +Etablissement+Discipline+Delai.insertion, data=base1)
Et enfin le summary
Là normalement je devrais avoir dans ma console environ 15 lignes (mes variables explicatives) mais j'en ai beaucoup plus, j'ai le nom de tous les établissements, toutes les disciplines, tous les taux de femme etc.... Or moi ce qui m'intéresse c'est de savoir si la variable Etablissement est significatif et non pas les variables Etablissement Dauphine, Etablissement Sorbonne etc...
Mes connaissances sont très limités sur ce sujet, donc je ne sais pas si j'ai utilisé des termes ou une expression qui vous fera mal à la tête (auquel cas je m'excuse). Je pourrais vous envoyer des screens si jamais vous avez du mal à comprendre ce que j'ai écrit.
Merci d'avance pour votre temps & votre patience
Ps : Ci joint un lien drive de ma base de donnée (en csv) :
https://drive.google.com/open?id=0B8...jEwS25ubl8wVVU
Partager