gérer automatiquement l'entete d'un fichier CSV

**petitours** · 20/10/2013, 00h57

Bonjour

Je fais une application qui lit des fichiers CSV provenant de différentes sources.
Tous les CSV ont une ligne avec le nom des champs

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Date; valeur1;valeur2;....

et les données qui suivent dès la ligne suivante.

MAIS avant la ligne des noms des champs, il peut y avoir X lignes de baratin

Aujourd'hui je lis mes CSV avec un streamreader et un

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

line.Split(';');

amis je dois ruser et préciser manuellement la position de la ligne des noms de champs, pour chaque fichier CSV.

Par quel outil ou stratagème peut on détecter automatiquement la première ligne utile d'un fichier CSV ?

Merci par avance pour vos idées.

**tomlev** · 20/10/2013, 01h23

Envoyé par petitours

MAIS avant la ligne des noms des champs, il peut y avoir X lignes de baratin

Il ressemble à quoi ce baratin ? C'est des commentaires ? Il n'y a pas un préfixe spécifique genre "#" ou "//" qui indique que ce n'est pas des données ?

**petitours** · 20/10/2013, 09h44

Bonjour

Ce baratin ressemble a tout et n'importe quoi, du fait de l’origine très variée des fichiers. Il n'y a aucun formalisme particulier.

Sur certains fichiers (de test par exemple) il peut ne pas y avoir d’entête du tout
Sur certains un peu compliqués, il y a jusqu’à une 40n de ligne, avec beaucoup de texte explicatif, des descriptions de variables, d'unités et j'en passe

**tomlev** · 20/10/2013, 12h54

Dans ce cas, la seule solution que je vois est de tester chaque ligne pour voir s'il y a bien le nombre de champs attendu (en faisant un split).

**petitours** · 20/10/2013, 13h04

j'aurais peut être du préciser que...je ne connais pas le nombre de champ !

il y en a 2 minimum (une date + au moins une donnée) mais potentiellement bien plus.

Dans mon appli j'ouvre un CSV, ça me liste tous les champs du fichiers et je sélectionne ceux que je veux traiter.

La solution que j'ai imaginé est de faire des split, de compter le nombre de champ et de considérer le début des données quand le nombre de split devient maximum et constant (et avec des valeurs numériques)

mais ça fait super lourd à traiter, je n'ai pas réussi à mettre un chronogramme sur le papier encore.

Merci

**DonQuiche** · 21/10/2013, 02h01

Envoyé par petitours

La solution que j'ai imaginé est de faire des split

Ça ne fonctionnera pas avec les chaînes de caractères contenant des séparateurs ou des sauts de ligne. Pour en avoir déjà fait un, quelques leçons retenues :

* Il faut créer un petit parser pour gérer les échappements de chaînes de caractères (au moins \"). Donc parcourir tous les caractères un à un à la main en faisant évoluer les états.

* Il faut supporter différents formats :
** Différents délimiteurs de chaînes de caractères (" ou ')
** Différents séparateurs (, ; \t \n)
** Avec ou sans en-têtes
** Avec ou sans échappement de \n et \t. Penser aux sauts de lignes dans les chaînes de caractères.

* Puis tester chaque format possible et déterminer à chaque fois si les résultats sont cohérents ou non (Les lignes retournées ont-elles des colonnes homogènes ? Y a t-il plus d'une ligne et plus d'une colonne ?)

**petitours** · 21/10/2013, 13h56

Envoyé par tomlev

Il n'y a pas un préfixe spécifique genre "#" ou "//" qui indique que ce n'est pas des données ?

Ça me travaille depuis ce message... je n'y avais pas pensé mais, à voir la difficulté de retrouver ce baratin automatiquement, il ne serait pas déconnant que je m'impose l'ajout d'un /* et d'un */

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
/* baratin
encore du baratin */

Ça va surement être ça la solution au final. Cela lèvera juste le soucis de devoir éditer le fichier pour ajouter le /* et */... Avec un très gros fichier wordpad ou Notepad++ tirent la langue des fois.

Ceci étant dit,

Envoyé par tomlev

apparement il y a une exception spécifique (MalformedLineException) quand une ligne est mal formée ; tu peux toujours intercepter cette erreur et ignorer la ligne...

est intéressant.
A quelle moment interviendrait elle cette exception ? La notion de "mal formée" n'implique pas que je traite une ligne en connaissant le nombre de colonnes et/ou le format ?

Merci

**tomlev** · 21/10/2013, 14h47

Envoyé par petitours

Ça me travaille depuis ce message... je n'y avais pas pensé mais, à voir la difficulté de retrouver ce baratin automatiquement, il ne serait pas déconnant que je m'impose l'ajout d'un /* et d'un */

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
/* baratin
encore du baratin */

Pourquoi pas plutôt un préfixe qui met toute la ligne en commentaire ? c'est nettement plus facile à parser...

Envoyé par petitours

Ça va surement être ça la solution au final. Cela lèvera juste le soucis de devoir éditer le fichier pour ajouter le /* et */... Avec un très gros fichier wordpad ou Notepad++ tirent la langue des fois.

Avec notepad2 ça marche bien, même pour des gros fichiers. Mais de toutes façons, si tu dois éditer le fichier pour ajouter ça, autant supprimer carrément le baratin...

A quelle moment interviendrait elle cette exception ? La notion de "mal formée" n'implique pas que je traite une ligne en connaissant le nombre de colonnes et/ou le format ?

Elle est levée lors de l'appel à la méthode ReadFields(), si le parser n'arrive pas à lire les champs. A priori pas de problème de nombre de colonnes

**petitours** · 21/10/2013, 15h04

Envoyé par tomlev

Pourquoi pas plutôt un préfixe qui met toute la ligne en commentaire ? c'est nettement plus facile à parser...

Mais pas à ajouter dans le fichier !
Il doit bien y avoir moyen de détecter facilement ce qui est en fin de ligne (détecter le */)
Elle me plait de plus en plus cette technique ; au prix d'une mini intervention sur le fichier je peux non seulement identifier le baratin mais aussi identifier pareil la ligne des noms de colonne, une ligne avec les unités ....

Au final c'est surement bien plus sain de formater tous mes fichiers de données pareil que de faire une usine à gaz qui s'adapte à "tout".

Envoyé par tomlev

Avec notepad2 ça marche bien, même pour des gros fichiers. Mais de toutes façons, si tu dois éditer le fichier pour ajouter ça, autant supprimer carrément le baratin...

Ce baratin donne l'origine , le cadre et les commentaires sur le fichier, j'ai plus tendance à vouloir augmenter le baratin qu'à le retirer.

Envoyé par tomlev

Elle est levée lors de l'appel à la méthode ReadFields(), si le parser n'arrive pas à lire les champs. A priori pas de problème de nombre de colonnes

CF ma très grosse bête noire du moment
http://www.developpez.net/forums/d13...ntite-donnees/

ReadFields() peut il être plus rapide qu'un split ?

**DonQuiche** · 21/10/2013, 15h14

Envoyé par petitours

ReadFields() peut il être plus rapide qu'un split ?

Le problème est que comme expliqué plus haut un split ne fonctionnera pas avec les chaînes de caractères contenant des séparateurs de champs. Et il ne résoudra pas non plus les échappements de chaînes de caractères ou les sauts de lignes dans celle-ci. Les chaînes de caractères imposent une alternative plus sophistiquée comme celle proposée par Tomlev.

**tomlev** · 21/10/2013, 15h20

Envoyé par petitours

Mais pas à ajouter dans le fichier !

Bof, n'importe quel éditeur digne de ce nom a une fonctionnalité "comment line" avec un raccourci clavier... tu as juste à sélectionner les lignes et à faire ça.

gérer automatiquement l'entete d'un fichier CSV

C#

Vue hybride

Discussions similaires

Partager

Partager