Retirer le dernier décile
Bonjour.
J'ai un jeu de donnée dont je dois faire une moyenne par période.
Mais avant, je dois retirer le dernier décile des valeurs (d$val) afin d'éliminer les "extrêmes" qui pourraient influencer outre mesure les moyennes.
voici un code d'exemple:
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
|
# exemple de df
d <- data.frame(
period = as.factor(rep(c(2015:2018)))
, val = c( sample(x = 1:1000, 2000, replace = T), 25000, 424242, 77777, 424242)
)
# ici je dois retirer le dernier decile
# moyenne / periode
d_moyp <- aggregate(val ~ period, data = d, mean )
# creation du graphique
library(ggplot2)
ggplot(d_moyp) +
aes( x = period, y = val) +
geom_hline(yintercept = 442 , lty = 2) +
geom_histogram(stat = "identity", alpha= 0.7) |
Une idée ?