Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Analyse de moyenne


Sujet :

R

  1. #1
    Nouveau membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    juin 2018
    Messages
    78
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 24
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : juin 2018
    Messages : 78
    Points : 37
    Points
    37
    Par défaut Analyse de moyenne
    Bonjour à tous,

    Je dispose d'un fichier de données répertoriant les résultats d'élections au premiers tour, ainsi que le taux de chomage de communes.

    Table de données ici : https://drive.google.com/open?id=1B1...oovttBA-iHxg42

    Je voudrais savoir si il y a un « effet social » lié à des contextes de précarité dans la variabilité des résultats des votes au premier tour.

    Pour cela, j'utilise le principe ANOVA : Analyse de variance avec R.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    analyse_variance = aov(TXCHOMAGE2014~Nom_vainqueur_1er_tour)
     
    summary(analyse_variance)
    J'obtiens ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    > summary(analyse_variance)
                            Df Sum Sq Mean Sq F value Pr(>F)    
    Nom_vainqueur_1er_tour   4   1152  288.05   27.49 <2e-16 ***
    Residuals              166   1739   10.48                   
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    Très bien, je sais que la p-value est très basse, il y a donc un lien très significatif.

    A présent, j'aimerais pouvoir afficher la moyenne et l'écart type du taux de chomage en fonction du champs "Nom_vainqueur_1er_tour". En gros, afficher le taux de chomage des communes catégorisé par les personnes qui ont remporté le premier tours (Mélenchon, Fillon, etc).

    Malheureusement, je ne sais pas comment m'y prendre ....

    Merci à vous.

  2. #2
    Membre confirmé
    Homme Profil pro
    Inscrit en
    janvier 2006
    Messages
    408
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Corse (Corse)

    Informations forums :
    Inscription : janvier 2006
    Messages : 408
    Points : 640
    Points
    640
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
     
    resultat <- df%>% group_by(Nom_vainqueur_1er_tour)%>%summarise(moyenne= mean(TXCHOMAGE2014),ec=sd(TXCHOMAGE2014))

  3. #3
    Membre éclairé
    Homme Profil pro
    Chercheur
    Inscrit en
    décembre 2015
    Messages
    297
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : décembre 2015
    Messages : 297
    Points : 723
    Points
    723
    Par défaut
    1) Ta question n'est pas claire. Que cherches-tu, calculer le taux de chômage moyen et l'écart type sur tes données brutes ou les calculer a posteriori pour déterminer s'il existe vraiment des différences entre candidats. Dans ce dernier cas tu dois faire un test post-hoc sur les résultats de ton analyse. Dans le premier cas, l'analyse ne sert à rien.

    2) L'analyse en elle-même pose problème. En effet, en utilisant des pourcentages, tu donnes le même poids dans ton analyse à des communes qui peuvent avoir des populations de tailles très différentes, ce qui est très discutable. De plus, le résultat de l'élection dépend de nombreux facteurs qui ne sont pas pris en compte dans ton analyse, entre autres, le taux de participation (quel lien entre ce taux de participation, le taux de chômage et le résultat de l'élection ?) et le fait que les électeurs sont des actifs qui peuvent être au chômage et des inactifs (retraités, rentiers, étudiants...) qui ne sont pas chômeurs par nature.

    3) Tu dois mieux définir ce que tu appelles "effet social" car toutes les études montrent d'autres effets sociaux entre autres, un effet de la CSP que tu ignores dans ton analyse et de la tranche d'âge. Dans tes données, tu peux trouver des paradoxes qui invalident l'analyse : par exemple, en reprenant les analyses du vote, deux communes, l'une commune où résident en majorité des retraités, donc avec un taux de chômage faible, et l'autre d'actifs avec un taux de chômage élevé peuvent avoir voté dans la même proportion d'exprimés pour Le Pen mais, en y regardant de plus près, on peut constater un faible taux d'abstention pour la première et un fort taux pour la seconde.

    4) Dernière remarque de ma réponse, pour la limiter car la discussion pourrait être longue, la manière dont tu conduis ton analyse ignore le fait multivarié des résultats, c'est-à-dire que pour une commune donnée, la somme des pourcentages des différents candidats en termes d'exprimés donne 100%. De plus, on peut raisonnablement se demander si c'est le candidat (arrivé en tête ? donc si c'est le cas, tu ne fais pas de différence entre le fait que les deux premiers, par exemple, ont 0,1 point de différence ou 5 points de différence) qui explique le taux de chômage (ce que fait ton analyse) ou si le taux de chômage qui explique le choix du candidat.

  4. #4
    Nouveau membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    juin 2018
    Messages
    78
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 24
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : juin 2018
    Messages : 78
    Points : 37
    Points
    37
    Par défaut
    Merci pour ta réponse.

    Effectivement, mon analyse de base ne comprends pas autant de détails. Débutant dans les stats, mon étude reposait simplement sur le fait de voir là ou les candidats ont été largement élu, et comparer avec le taux de chômage déjà existant.
    Bien qu'il manque effectivement énormément de détails dans mon étude, je voulais voir si le taux de chômage déjà existant influençait les votes.

    Pour faire clair, j'ai trouvé la solution avec la formule aggregate :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ag <- aggregate(data$TXCHOMAGE2014 ~  data$Nom_vainqueur_1er_tour, data = data, FUN = function(i) c(mean = mean(i), sd = sd(i), median = median(i)))
    qui m'a permit de déterminer que les communes ou Mélenchon est sorti vainqueur ont, en moyenne, un taux de chômage 2-3 fois supérieur à celles ou les autres candidats sont sortis vainqueurs.

    Tu me conseille d'utilise le test post-hoc, je ne connaissais pas. J'étudierai ceci. Merci beaucoup pour toute ces pistes

  5. #5
    Membre éclairé
    Homme Profil pro
    Chercheur
    Inscrit en
    décembre 2015
    Messages
    297
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : décembre 2015
    Messages : 297
    Points : 723
    Points
    723
    Par défaut
    je voulais voir si le taux de chômage déjà existant influençait les votes
    Ce qui signifie que la variable explicative est le taux de chômage tandis que la variable à expliquer est le vote. Dans ton analyse par aov, c'est l'inverse que tu fais : tu expliques le taux de chômage par le vote.

    Le résultat par aggregate n'a pas besoin de aov. De plus, même s'il y a un rapport 2-3, cela ne signifie absolument pas que c'est significatif. Pour cela, il faut faire un test post-hoc. Après aov, ce peut être TukeyHSD.

    Si tu es débutant dans les stats, il faut ne pas oublier que les procédures ne sont que des outils et qu'un fois le problème bien posé (hypothèses, ce qui à tester, ...), le reste se déroule mécaniquement. L'analyse (aov ou lm, de préférence) va permettre de savoir si les variables explicatives ont un effet significatif et si oui, le test post-hoc permettra de trouver quels niveaux des facteurs (si les variables explicatives sont des facteurs) diffèrent significativement des autres. Il faut pour cela utiliser le résultat de l'analyse.

Discussions similaires

  1. Réponses: 9
    Dernier message: 21/04/2017, 14h22
  2. Qu'est ce qu'une analyse fonctionelle
    Par sandrine dans le forum Débats sur le développement - Le Best Of
    Réponses: 22
    Dernier message: 28/02/2015, 20h03
  3. Analyse statistique de données circulaires : moyenne, variance, etc.
    Par ToTo13 dans le forum Statistiques et Data Mining
    Réponses: 33
    Dernier message: 28/02/2011, 13h36
  4. Outil d'analyse de code
    Par Bloon dans le forum Outils
    Réponses: 8
    Dernier message: 07/08/2007, 10h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo