Bonjour.

J'ai un jeu de donnée dont je dois faire une moyenne par période.

Mais avant, je dois retirer le dernier décile des valeurs (d$val) afin d'éliminer les "extrêmes" qui pourraient influencer outre mesure les moyennes.

voici un code d'exemple:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
# exemple de df
d <- data.frame(
    period = as.factor(rep(c(2015:2018)))
  , val    = c( sample(x = 1:1000, 2000, replace = T), 25000, 424242, 77777, 424242)
)
 
# ici je dois retirer le dernier decile
 
# moyenne / periode
d_moyp <- aggregate(val ~ period, data = d, mean )
 
# creation du graphique
library(ggplot2)
ggplot(d_moyp) +
  aes( x = period, y = val) +
  geom_hline(yintercept = 442 , lty = 2) +
  geom_histogram(stat = "identity", alpha= 0.7)
Une idée ?