Analyse de moyenne

**preliator** · 19/10/2019, 14h07

Bonjour à tous,

Je dispose d'un fichier de données répertoriant les résultats d'élections au premiers tour, ainsi que le taux de chomage de communes.

Table de données ici : https://drive.google.com/open?id=1B1...oovttBA-iHxg42

Je voudrais savoir si il y a un « effet social » lié à des contextes de précarité dans la variabilité des résultats des votes au premier tour.

Pour cela, j'utilise le principe ANOVA : Analyse de variance avec R.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
analyse_variance = aov(TXCHOMAGE2014~Nom_vainqueur_1er_tour)
 
summary(analyse_variance)

J'obtiens ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
> summary(analyse_variance)
                        Df Sum Sq Mean Sq F value Pr(>F)    
Nom_vainqueur_1er_tour   4   1152  288.05   27.49 <2e-16 ***
Residuals              166   1739   10.48                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Très bien, je sais que la p-value est très basse, il y a donc un lien très significatif.

A présent, j'aimerais pouvoir afficher la moyenne et l'écart type du taux de chomage en fonction du champs "Nom_vainqueur_1er_tour". En gros, afficher le taux de chomage des communes catégorisé par les personnes qui ont remporté le premier tours (Mélenchon, Fillon, etc).

Malheureusement, je ne sais pas comment m'y prendre ....

Merci à vous.

**xavier-Pierre** · 19/10/2019, 15h49

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
 
resultat <- df%>% group_by(Nom_vainqueur_1er_tour)%>%summarise(moyenne= mean(TXCHOMAGE2014),ec=sd(TXCHOMAGE2014))

**faubry** · 20/10/2019, 09h01

1) Ta question n'est pas claire. Que cherches-tu, calculer le taux de chômage moyen et l'écart type sur tes données brutes ou les calculer a posteriori pour déterminer s'il existe vraiment des différences entre candidats. Dans ce dernier cas tu dois faire un test post-hoc sur les résultats de ton analyse. Dans le premier cas, l'analyse ne sert à rien.

2) L'analyse en elle-même pose problème. En effet, en utilisant des pourcentages, tu donnes le même poids dans ton analyse à des communes qui peuvent avoir des populations de tailles très différentes, ce qui est très discutable. De plus, le résultat de l'élection dépend de nombreux facteurs qui ne sont pas pris en compte dans ton analyse, entre autres, le taux de participation (quel lien entre ce taux de participation, le taux de chômage et le résultat de l'élection ?) et le fait que les électeurs sont des actifs qui peuvent être au chômage et des inactifs (retraités, rentiers, étudiants...) qui ne sont pas chômeurs par nature.

3) Tu dois mieux définir ce que tu appelles "effet social" car toutes les études montrent d'autres effets sociaux entre autres, un effet de la CSP que tu ignores dans ton analyse et de la tranche d'âge. Dans tes données, tu peux trouver des paradoxes qui invalident l'analyse : par exemple, en reprenant les analyses du vote, deux communes, l'une commune où résident en majorité des retraités, donc avec un taux de chômage faible, et l'autre d'actifs avec un taux de chômage élevé peuvent avoir voté dans la même proportion d'exprimés pour Le Pen mais, en y regardant de plus près, on peut constater un faible taux d'abstention pour la première et un fort taux pour la seconde.

4) Dernière remarque de ma réponse, pour la limiter car la discussion pourrait être longue, la manière dont tu conduis ton analyse ignore le fait multivarié des résultats, c'est-à-dire que pour une commune donnée, la somme des pourcentages des différents candidats en termes d'exprimés donne 100%. De plus, on peut raisonnablement se demander si c'est le candidat (arrivé en tête ? donc si c'est le cas, tu ne fais pas de différence entre le fait que les deux premiers, par exemple, ont 0,1 point de différence ou 5 points de différence) qui explique le taux de chômage (ce que fait ton analyse) ou si le taux de chômage qui explique le choix du candidat.

**preliator** · 20/10/2019, 10h09

Merci pour ta réponse.

Effectivement, mon analyse de base ne comprends pas autant de détails. Débutant dans les stats, mon étude reposait simplement sur le fait de voir là ou les candidats ont été largement élu, et comparer avec le taux de chômage déjà existant.
Bien qu'il manque effectivement énormément de détails dans mon étude, je voulais voir si le taux de chômage déjà existant influençait les votes.

Pour faire clair, j'ai trouvé la solution avec la formule aggregate :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ag <- aggregate(data$TXCHOMAGE2014 ~  data$Nom_vainqueur_1er_tour, data = data, FUN = function(i) c(mean = mean(i), sd = sd(i), median = median(i)))

qui m'a permit de déterminer que les communes ou Mélenchon est sorti vainqueur ont, en moyenne, un taux de chômage 2-3 fois supérieur à celles ou les autres candidats sont sortis vainqueurs.

Tu me conseille d'utilise le test post-hoc, je ne connaissais pas. J'étudierai ceci. Merci beaucoup pour toute ces pistes

**faubry** · 20/10/2019, 11h31

je voulais voir si le taux de chômage déjà existant influençait les votes

Ce qui signifie que la variable explicative est le taux de chômage tandis que la variable à expliquer est le vote. Dans ton analyse par aov, c'est l'inverse que tu fais : tu expliques le taux de chômage par le vote.

Le résultat par aggregate n'a pas besoin de aov. De plus, même s'il y a un rapport 2-3, cela ne signifie absolument pas que c'est significatif. Pour cela, il faut faire un test post-hoc. Après aov, ce peut être TukeyHSD.

Si tu es débutant dans les stats, il faut ne pas oublier que les procédures ne sont que des outils et qu'un fois le problème bien posé (hypothèses, ce qui à tester, ...), le reste se déroule mécaniquement. L'analyse (aov ou lm, de préférence) va permettre de savoir si les variables explicatives ont un effet significatif et si oui, le test post-hoc permettra de trouver quels niveaux des facteurs (si les variables explicatives sont des facteurs) diffèrent significativement des autres. Il faut pour cela utiliser le résultat de l'analyse.

Analyse de moyenne

R

Discussions similaires

Partager

Partager