exporter fichier excel

**fanfanus** · 25/11/2016, 18h20

Bonjour à tous,

J'ai fait ce code dans R pour calculer la moyenne des colonnes dans plus de 400 fichiers :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sapply(dir("C:/Users/fanfa/Desktop/data_csv_Rm/test", full.names = TRUE), function(x) colMeans(read.table(x, header = TRUE, sep = ",")))

Ça a l'air de fonctionner. Sauf qu'il m'affiche un résultat par fichier à la suite.
Est-il possible de générer un tableau compilant toutes ces moyennes ? Sachant qu'il y a une difficulté : j'ai 111 colonnes par fichiers avec un nom identique, mais parfois j'ai des colonnes manquantes. Il faudrait donc faire correspondre le nom des colonnes...

MErci pour votre aide !

**mgdondon** · 26/11/2016, 01h30

Bonjour,

Je vous conseille de procéder pas à pas :

Soit deux dataframes correspondant au contenu de deux fichiers :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
df1 <- data.frame(V1 = c(1,1,1), V2 = c(2,2,2), V3 = c(3,3,3))
df2 <- data.frame(V1 = c(4,4,4), V3 = c(5,5,5), V4 = c(6,6,6))

Voyons ce que donne la fonction colMeans() et surtout la structure du résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
> str(colMeans(df1))
 Named num [1:3] 1 2 3
 - attr(*, "names")= chr [1:3] "V1" "V2" "V3"

Si vous souhaitez ranger l'ensemble des résultats dans un tableau, il vaut mieux obtenir un dataframe :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
> str(data.frame(lapply(df1,mean)))
'data.frame':   1 obs. of  3 variables:
 $ V1: num 1
 $ V2: num 2
 $ V3: num 3

Ensuite on peut utiliser la fonction rbind.fill() du package plyr pour concaténer les différents dataframes obtenus :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
> mean1 <- data.frame(lapply(df1,mean))
> mean2 <- data.frame(lapply(df2,mean))
> 
> library(plyr)
> rbind.fill(mean1, mean2)
  V1 V2 V3 V4
1  1  2  3 NA
2  4 NA  5  6

On peut alors généraliser le programme :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
setwd("D:/data")
liste_fichiers <- list.files(pattern="csv")
n=length(liste_fichiers)
dftot=data.frame()
for (i in 1:n) 
  {
  df <- read.csv(liste_fichiers[i])
  mean_fichier <- data.frame(lapply(df,mean))
  dftot <- rbind.fill(dftot, mean_fichier)
  }
dftot

Ou avec les fonctions de liste de R :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
rbind.fill(lapply(list.files(pattern="csv"), 
                  function(x) data.frame(lapply(read.csv(x),mean))))

Cordialement,

**fanfanus** · 28/11/2016, 22h00

Bonjour mgdondon,

Merci beaucoup pour cette réponse très complète.

En appliquant ce code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
setwd("C:/Users/fanfa/Desktop/data_csv_Rm/test")
liste_fichiers <- list.files(pattern="txt")
n=length(liste_fichiers)
dftot=data.frame()
for (i in 1:n) 
  {
  df <- read.csv(liste_fichiers)
  mean_fichier <- data.frame(lapply(df,mean))
  dftot <- rbind.fill(dftot, mean_fichier)
  }
dftot

J'ai obtenu le message suivant : "Erreur : impossible de trouver la fonction "rbind.fill"

J'ai trouvé la solution en installant le pack "plyr".

Code : Sélectionner tout - Visualiser dans une fenêtre à part

1
2
install.packages("plyr") library("plyr")

Par ailleurs, un dernier détail : je souhaiterais que la ligne porte le nom du fichier, et non 1, 2, 3 etc... Cela est-il possible ?
Merci pour t'as précieuse aide !

**mgdondon** · 28/11/2016, 22h38

Bonjour fanfanus,

Oui, tout à fait :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

mean_fichier <- data.frame(fichier=liste_fichiers[i],lapply(df,mean))

Cordialement,

**fanfanus** · 28/11/2016, 23h14

Merci pour tout.

**fanfanus** · 26/01/2017, 16h15

Bonjour,

Me revoilà, si en lieu est place de la moyenne, je souhaite calculer le 75éme percentile.
Je pense qu'il s'agit de la fonction "quantile(x, probs= 0.75)".

si je reprend le code initial ça donne ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
liste_fichiers <- list.files(pattern="txt")
n=length(liste_fichiers)
dftot=data.frame()
for (i in 1:n) 
  {
  df <- read.csv(liste_fichiers[i], sep="\t")
  quant <- quantile(df, probs = 0.75, na.rm = TRUE)
  mean_fichier <- data.frame(fichier=liste_fichiers[i],lapply(df,quant))
  dftot <- rbind.fill(dftot, mean_fichier)
  }
dftot

Mais j'ai un message d’erreur : "Error in (1 - h) * qs[i] : argument non numérique pour un opérateur binaire". Je dois pas avoir la bonne matrice ?

Par ailleurs, j'ai vu que l'on peut choisir l'algorythme de quantile (Type 1 à 9, 7 par défaut, lequel choisir ?).

Une piste de solution ?

Merci par avance.

exporter fichier excel

R

Vue hybride

Discussions similaires

Partager

Partager