1ère colonne traitée comme numéro de ligne après read.csv

**Noxi90** · 05/11/2018, 16h07

Bonjour à tous,

Je souhaite importer un fichier csv mais j'ai un petit problème de décalage de la première colonne que R transforme en numéro de lignes.

Le fichier csv contient des en-têtes (la première ligne), et ensuite 52 colonnes, dont la première est une colonne "Date" au format yyyymmddHHMMSS. La décimale est le "." et le séparateur de colonne la ",". Voici la structure du fichier (3 premières lignes).

Date, Pa_1_1_1, P_rain_1_1_1, raw_P_rain_1_1_1, PPFD_1_1_1, WD_1_1_1, WS_1_1_1, WS_qf_1_1_1, RH_1_1_1, Ta_1_1_1, Ts_1_1_1, Ts_1_1_2, Ts_1_2_1, Ts_1_2_2, Ts_1_3_1, Ts_1_3_2, Ts_1_4_1, Ts_1_5_1, SWC_1_1_1, EC_1_1_1, Tswc_1_1_1, Pe_1_1_1, Pr_1_1_1, VR_1_1_1, SWC_1_1_2, EC_1_1_2, Tswc_1_1_2, Pe_1_1_2, Pr_1_1_2, VR_1_1_2, SWC_1_2_1, EC_1_2_1, Tswc_1_2_1, Pe_1_2_1, Pr_1_2_1, VR_1_2_1, SWC_1_3_1, EC_1_3_1, Tswc_1_3_1, Pe_1_3_1, Pr_1_3_1, VR_1_3_1, G_1_1_1, V_G_1_1_1, Esen_1_1_1, G_qf_1_1_1, G_1_1_2, V_G_1_1_2, Esen_1_1_2, G_qf_1_1_2, GWL_1_1_1, Tgwl_1_1_1

20180604000000,995.0562,0,0,0,23,0.39,0,99.44307,14.92076,15.83539,16.98187,16.47504,17.02008,17.09021,16.90555,15.87903,13.1637,0.4003,0.0344,17.2221,24.9855,3.5615,1.1002,9999999,0.0729,17.7287,69.1716,5.1631,1.2181,9999999,0.0771,16.5668,76.9864,5.3801,1.2248,9999999,0.0588,14.8527,64.6144,5.032,1.1709,-3.714366,-172.4669,46.4324,0,-1.899393,-99.50014,52.38524,0,37.29701,12.59138,

J'utilise la fonction

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

read.csv

sous la forme suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

data <- read.csv(file="FR_LGT_001_18_156_0000N6.csv")

.

Le problème c'est que R attribue ma colonne Date en tant que numéro de lignes, et du coup toutes mes en-têtes sont décalées. Il me crée en plus une dernière colonne avec que des NA (normal puisque les dates ont été utilisées autrement).
Comme mon explication n'est peut-être pas très claire, voici une image du résultat:

Nom : R.png
Affichages : 2195
Taille : 29,6 Ko

Nom : R.png
Affichages : 2195
Taille : 29,6 Ko

Si je met header=False, je n'ai pas ce décalage dans les colonnes, mais par contre je n'ai plus les en-têtes.

L'un d'entre vous aurait-il une idée d'où provient ce problème et comment y remédier s'il vous plaît ?

Merci d'avance,
Noxi90

**Alpacky** · 05/11/2018, 18h27

bonjour,

Il me semble qu'il n'y a que deux lignes dans votre aperçu mais je peux me tromper. L'erreur vient probablement du fait que votre deuxième ligne se termine par une ",". R attend donc une autre colonne, ce qui crée certainement le décalage.

Plusieurs options sont disponibles : décaler les header manuellement mais il faut être certain que tout corresponde bien, lire juste les header et lire sans header et faire correspondre après sinon utiliser la fonction read_csv du package readr ou nettoyer le csv avant de le lire.

**Noxi90** · 06/11/2018, 10h44

Bonjour,

Merci pour votre réponse. L'aperçu que j'ai posté est tronqué car trop long pour l'affichage ici. J'ai mis trois lignes: la ligne d'en-têtes, une ligne blanche en dessous, et ensuite une première ligne de données.

Nettoyer le csv n'est pas possible: c'est un fichier journalier transmis par une station de mesure autonome. Chaque fichier possède 1441 lignes, et chaque nouveau jour un nouveau fichier arrive. Mon idée est de créer un petit code R pour réaliser quelques opérations de routine sur ces fichiers.

Je vais tenter les deux autres opérations que vous m'avez décrite pour voir si cela fonctionne.

Noxi90

**faubry** · 06/11/2018, 13h44

Par défaut, dans read.csv la virgule est le séparateur de colonne. Si une ligne se termine par une virgule, R considère qu'il y a alors une colonne vide supplémentaire (codée NA dans R) qui termine la ligne. C'est le cas de la deuxième ligne de ton exemple.

La première ligne du fichier est une ligne qui donne les entêtes du fichier. read.csv et read.table considèrent par défaut que s'il y a une colonne de plus dans la partie des données que dans la ligne d'entête, alors, la première colonne des données est celle qui contient les noms des lignes. C'est ce qui doit t'arriver (je n'ai pas le courage de compter les items dans ton exemple). Si c'est le cas et que tu ne peux pas modifier ton fichier, alors donne à l'argument row.names le numéro de la colonne en trop, c'est-à-dire que si tu as N variables/colonnes, alors row.names=N+1. Cela devrait résoudre ton problème.

1ère colonne traitée comme numéro de ligne après read.csv

R

Vue hybride

Discussions similaires

Partager

Partager