IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Entrée/Sortie Java Discussion :

Détection séparateur fichiers CSV


Sujet :

Entrée/Sortie Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre habitué
    Inscrit en
    Octobre 2007
    Messages
    401
    Détails du profil
    Informations forums :
    Inscription : Octobre 2007
    Messages : 401
    Points : 153
    Points
    153
    Par défaut Détection séparateur fichiers CSV
    Bonjour,

    Je vous présente un problème qui me semble compliqué:

    J'ai plusieurs fichiers de type CSV. Ces fichiers me sont fournis. Je ne devrait pas avoir à les modifier. Mon projet Java va devoir être capable de faire le parsing de ces fichiers.

    Cependant, il y a un problème: les fichiers peuvent avoir un séparateur différent (";", ",", " ", "\t", etc.)

    Quelqu'un peut-il me suggérer une possible piste/solution capable de façon à ce que je sois capable détecter quel est le séparateur utilisé dans un fichier CSV?

    Merci

  2. #2
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 554
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 554
    Points : 21 615
    Points
    21 615
    Par défaut
    Tester le parsing avec chacun des séparateurs possibles et garder le résultat le moins délirant.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  3. #3
    Expert éminent sénior
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 481
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 481
    Points : 48 806
    Points
    48 806
    Par défaut
    Autre suggestion:

    parser le fichier comme du texte brut
    faire l'inventaire des caractères les plus courants dans le fichier
    il y a de fortes chance que ton séparateur soit en tête de liste.


    aussi, si le format est constant dans une fichier donnée, un critère pourrait être de parser et vérifier que tu a bien le même nombre de colonnes à chaque ligne.

    Mais ça reste de la bidouille. Le mieux serait qu'on évite de faire rentrer du caca dans ton programme (garbage in / garbage out)

    Au passage, même si il n'y a pas de facto de standard pour le CSV, il y a quand même sont nom qui dit "Comma separated values"

    Et là tu n'a pas encore traité le problème des quotes et des caractères d'échappement, le multilignes, le charset

    Le meilleur outil que je puisse te suggérer est celui-ci:
    http://www.singlemaltwhiskyandavaila...8b-500x500.jpg

  4. #4
    Modérateur
    Avatar de wax78
    Homme Profil pro
    Chef programmeur
    Inscrit en
    Août 2006
    Messages
    4 077
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Belgique

    Informations professionnelles :
    Activité : Chef programmeur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Août 2006
    Messages : 4 077
    Points : 7 984
    Points
    7 984
    Par défaut
    Très bon outil _tchize, mais il ne faut pas en abuser
    (Les "ça ne marche pas", même écrits sans faute(s), vous porteront discrédit ad vitam æternam et malheur pendant 7 ans)

    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  5. #5
    Membre averti Avatar de clubist
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2008
    Messages
    217
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Février 2008
    Messages : 217
    Points : 301
    Points
    301
    Par défaut
    Techniquement, tu peux utiliser les regex.Pattern et tu mets tes caractères séparateurs dedans, puis en utilisation matcher, java te donne le nombre de résultats et leurs positions (les méthodes group et start).

    Maintenant si on parle de la structure des fichiers csv, je pense qu'un fichier csv valide doit avoir qu'un seul séparateur.
    Pourquoi ?

    Car on peut trouver un caractère avec plusieurs occurrences dans le parsing mais il est présent comme un caractère ordinaire dans une phrase, par exemple

    Cristophe; ingénieur, technico-commercial produit Xx; 34 ans

    ici la virgule n'est pas un séparateur.

  6. #6
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 554
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 554
    Points : 21 615
    Points
    21 615
    Par défaut
    Citation Envoyé par clubist Voir le message
    Techniquement, tu peux utiliser les regex.Pattern et tu mets tes caractères séparateurs dedans, puis en utilisation matcher, java te donne le nombre de résultats et leurs positions (les méthodes group et start).
    Nope, group() ne compte rien du tout. D'ailleurs il renvoie une String -_-°. Un Matcher ne compte pas le nombre d'occurrences trouvées. find() s'arrête à la première occurrence trouvée, et doit être rappelé quand on veut chercher la suivante.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

Discussions similaires

  1. Problème de séparateur dans fichier CSV
    Par mbibim63 dans le forum Excel
    Réponses: 4
    Dernier message: 05/07/2007, 08h29
  2. [VBA-E]Ouvrir un fichier.csv ou un fichier.txt séparateur ";"
    Par ouskel'n'or dans le forum Macros et VBA Excel
    Réponses: 1
    Dernier message: 30/05/2007, 12h09
  3. Réponses: 12
    Dernier message: 12/04/2006, 10h20
  4. [CSV] Détecter le séparateur pour les fichiers CSV
    Par JavaEli dans le forum Langage
    Réponses: 1
    Dernier message: 30/11/2005, 23h42
  5. [Excel] séparateur pour les fichiers csv
    Par drinkmilk dans le forum Excel
    Réponses: 2
    Dernier message: 27/08/2005, 14h21

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo