IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Entrée/Sortie Java Discussion :

Détection séparateur fichiers CSV


Sujet :

Entrée/Sortie Java

  1. #1
    Membre habitué
    Inscrit en
    Octobre 2007
    Messages
    401
    Détails du profil
    Informations forums :
    Inscription : Octobre 2007
    Messages : 401
    Points : 153
    Points
    153
    Par défaut Détection séparateur fichiers CSV
    Bonjour,

    Je vous présente un problème qui me semble compliqué:

    J'ai plusieurs fichiers de type CSV. Ces fichiers me sont fournis. Je ne devrait pas avoir à les modifier. Mon projet Java va devoir être capable de faire le parsing de ces fichiers.

    Cependant, il y a un problème: les fichiers peuvent avoir un séparateur différent (";", ",", " ", "\t", etc.)

    Quelqu'un peut-il me suggérer une possible piste/solution capable de façon à ce que je sois capable détecter quel est le séparateur utilisé dans un fichier CSV?

    Merci

  2. #2
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 553
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 553
    Points : 21 612
    Points
    21 612
    Par défaut
    Tester le parsing avec chacun des séparateurs possibles et garder le résultat le moins délirant.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  3. #3
    Expert éminent sénior
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 481
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 481
    Points : 48 806
    Points
    48 806
    Par défaut
    Autre suggestion:

    parser le fichier comme du texte brut
    faire l'inventaire des caractères les plus courants dans le fichier
    il y a de fortes chance que ton séparateur soit en tête de liste.


    aussi, si le format est constant dans une fichier donnée, un critère pourrait être de parser et vérifier que tu a bien le même nombre de colonnes à chaque ligne.

    Mais ça reste de la bidouille. Le mieux serait qu'on évite de faire rentrer du caca dans ton programme (garbage in / garbage out)

    Au passage, même si il n'y a pas de facto de standard pour le CSV, il y a quand même sont nom qui dit "Comma separated values"

    Et là tu n'a pas encore traité le problème des quotes et des caractères d'échappement, le multilignes, le charset

    Le meilleur outil que je puisse te suggérer est celui-ci:
    http://www.singlemaltwhiskyandavaila...8b-500x500.jpg

  4. #4
    Modérateur
    Avatar de wax78
    Homme Profil pro
    Chef programmeur
    Inscrit en
    Août 2006
    Messages
    4 075
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Belgique

    Informations professionnelles :
    Activité : Chef programmeur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Août 2006
    Messages : 4 075
    Points : 7 981
    Points
    7 981
    Par défaut
    Très bon outil _tchize, mais il ne faut pas en abuser
    (Les "ça ne marche pas", même écrits sans faute(s), vous porteront discrédit ad vitam æternam et malheur pendant 7 ans)

    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  5. #5
    Membre averti Avatar de clubist
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2008
    Messages
    217
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Février 2008
    Messages : 217
    Points : 301
    Points
    301
    Par défaut
    Techniquement, tu peux utiliser les regex.Pattern et tu mets tes caractères séparateurs dedans, puis en utilisation matcher, java te donne le nombre de résultats et leurs positions (les méthodes group et start).

    Maintenant si on parle de la structure des fichiers csv, je pense qu'un fichier csv valide doit avoir qu'un seul séparateur.
    Pourquoi ?

    Car on peut trouver un caractère avec plusieurs occurrences dans le parsing mais il est présent comme un caractère ordinaire dans une phrase, par exemple

    Cristophe; ingénieur, technico-commercial produit Xx; 34 ans

    ici la virgule n'est pas un séparateur.

  6. #6
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 553
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 553
    Points : 21 612
    Points
    21 612
    Par défaut
    Citation Envoyé par clubist Voir le message
    Techniquement, tu peux utiliser les regex.Pattern et tu mets tes caractères séparateurs dedans, puis en utilisation matcher, java te donne le nombre de résultats et leurs positions (les méthodes group et start).
    Nope, group() ne compte rien du tout. D'ailleurs il renvoie une String -_-°. Un Matcher ne compte pas le nombre d'occurrences trouvées. find() s'arrête à la première occurrence trouvée, et doit être rappelé quand on veut chercher la suivante.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  7. #7
    Membre expérimenté
    Avatar de yotta
    Homme Profil pro
    Technicien maintenance
    Inscrit en
    Septembre 2006
    Messages
    1 088
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Technicien maintenance
    Secteur : Industrie

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 088
    Points : 1 540
    Points
    1 540
    Par défaut
    Votre interrogation m'a inspiré. Avec le format CSV, il y a pour moi deux cas de figure. Soit le texte des colonnes est encadré par le caractère double-quote, soit il ne l'est pas. Sinon, ce n'est pas du CSV.
    Dans le cas où le texte des colonnes n'est pas encadré par des double-quotes, alors il faut s'appuyer sur une liste de caractère de séparation supportés.
    Posons les éléments suivants :
    Cas 1 : Texte non encadré.
    Cas 2 : Texte encadré.

    Dans le Cas 1, il faut fournir un String[] contenant les caractères supportés, {";" , "," , " " , "\t"} par exemple.
    Dans le Cas 2, il suffit de lui fournir null comme separateurs.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
        public static String getCSVSepChar(File fichierCSV, String[] separateurs) throws Exception {
            String reponse = null;
            BufferedReader lecteur = new BufferedReader(new FileReader(fichierCSV));
            String ligne;
            if (separateurs != null) {
                // Le fichier CSV n'encadre pas le texte des colonnes du caractère double-quote.
                // separateurs contient alors la liste des séparateurs supportés, et le code ne détectera correctement le caractère de séparation que s'il n'est pas utilisé dans le texte des colonnes.
                int[] comptage1 = null;
                int[] comptage2 = null;
                if (lecteur.ready()) {
                    comptage1 = new int[separateurs.length];
                    ligne = lecteur.readLine();
                    for (int i = 0 ; i < separateurs.length ; i++) comptage1[i] = ligne.split(separateurs[i]).length-1;
                    }
                if (lecteur.ready()) {
                    comptage2 = new int[separateurs.length];
                    ligne = lecteur.readLine();
                    for (int i = 0 ; i < separateurs.length ; i++) comptage2[i] = ligne.split(separateurs[i]).length-1;
                    }
                if (comptage1 != null & comptage2 != null) {
                    for (int i = 0 ; i < separateurs.length ; i++) {
                        if ((comptage1[i] == comptage2[i]) && (comptage1[i] > 0)) {
                            reponse = separateurs[i];
                            break;
                            }
                        }
                    }
                }
            else {
                // Ici, separateurs est null, cela signifie que le texte des colonnes est encadré du caractère double-quote.
                // Nous n'avons plus besoin d'une liste de séparateurs supportés.
                // Et nous n'avons besoin que de lire la premières ligne, qu'elle représente les intitulés de colonnes ou pas n'a aucune importance.
                ligne = lecteur.readLine();
                String[] parser = ligne.split("[\\\".*\\\"]");
                if (parser.length > 2) reponse = parser[2];
                if (" ".equals(reponse)) reponse = "espace"; //Optionnel
                }
            if (lecteur.ready()) lecteur.close();
            return reponse;
            }
    Une technologie n'est récalcitrante que par ce qu'on ne la connait et/ou comprend pas, rarement par ce qu'elle est mal faite.
    Et pour cesser de subir une technologie récalcitrante, n'hésitez surtout pas à visiter les Guides/Faq du site !

    Voici une liste non exhaustive des tutoriels qui me sont le plus familiers :
    Tout sur Java, du débutant au pro : https://java.developpez.com/cours/
    Tout sur les réseaux : https://reseau.developpez.com/cours/
    Tout sur les systèmes d'exploitation : https://systeme.developpez.com/cours/
    Tout sur le matériel : https://hardware.developpez.com/cours/

  8. #8
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 553
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 553
    Points : 21 612
    Points
    21 612
    Par défaut
    Bof. Dans la nature, il existe une infinité de formats CSV*. Quand c'est pas les double-quote c'est les simple-quote, ou les chevrons ou les accolades ou les crochets, et parfois des simples caractères d'échappement à la place.
    Il y a pas vraiment d'autre choix que de faire l'inventaire des formats que l'on peut vraiment possiblement recevoir de la part des fournisseurs.

    * D'accord, ce n'est pas vrai, pas infini. Mais l'explosion combinatoire des possibles est gigantesque.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  9. #9
    Expert éminent sénior
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 481
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 481
    Points : 48 806
    Points
    48 806
    Par défaut
    Et n'oublions pas certains fournisseurs qui viennent te dire que ça:

    Code txt : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    [Description]
    #Generated on 2014-04-26 02:01:12.254 UTC
    title=blablabla
    date=2014-04-25
    [Datas]
    1;2;3;AAAA
    4;5;6;BBBB
    7;9;9;CC\nCC

    c'est du CSV

    Mais bon, quand on a le choix avec entre le CSV et le XML comme ça, on fait son deuil des standards:

    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    <document>
      <content type="xml">
        &lt;description&gt;
         &lt;title&gt;blablabla&lt;/title&gt;
         &lt;date&gt;2014-04-25&lt;/date&gt;
       &lt;/description&gt;
       &lt;datas type="CSV" &gt;
        &lt;[!CDATA[
    1;2;3;AAAA
    4;5;6;BBBB
    7;9;9;CC\nCC
         ]]&gt;
       &lt;/datas&gt;
      </content>
    </document>

  10. #10
    Modérateur
    Avatar de OButterlin
    Homme Profil pro
    Inscrit en
    Novembre 2006
    Messages
    7 313
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 7 313
    Points : 9 529
    Points
    9 529
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par tchize_ Voir le message
    Mais bon, quand on a le choix avec entre le CSV et le XML comme ça, on fait son deuil des standards:

    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    <document>
      <content type="xml">
        &lt;description&gt;
         &lt;title&gt;blablabla&lt;/title&gt;
         &lt;date&gt;2014-04-25&lt;/date&gt;
       &lt;/description&gt;
       &lt;datas type="CSV" &gt;
        &lt;[!CDATA[
    1;2;3;AAAA
    4;5;6;BBBB
    7;9;9;CC\nCC
         ]]&gt;
       &lt;/datas&gt;
      </content>
    </document>
    M'en parle pas, chez nous on a des blaireaux qui écrivent le code xml dans le programme plutôt que d'utiliser une api xml...
    Désespérant
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  11. #11
    Modérateur
    Avatar de OButterlin
    Homme Profil pro
    Inscrit en
    Novembre 2006
    Messages
    7 313
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 7 313
    Points : 9 529
    Points
    9 529
    Billets dans le blog
    1
    Par défaut
    Pour le problème de base, à la réflexion, une solution pourrait être de prendre en compte les 2 premières lignes du fichier.
    Ensuite tu testes le nombre d'éléments de tableau obtenu pour chaque séparateur pour ces 2 lignes (via un ligne1.split(","))
    Si tu as égalité sur les 2 lignes, on est en droit de supposer qu'on a le bon séparateur... mais ça reste aléatoire...
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

Discussions similaires

  1. Problème de séparateur dans fichier CSV
    Par mbibim63 dans le forum Excel
    Réponses: 4
    Dernier message: 05/07/2007, 08h29
  2. [VBA-E]Ouvrir un fichier.csv ou un fichier.txt séparateur ";"
    Par ouskel'n'or dans le forum Macros et VBA Excel
    Réponses: 1
    Dernier message: 30/05/2007, 12h09
  3. Réponses: 12
    Dernier message: 12/04/2006, 10h20
  4. [CSV] Détecter le séparateur pour les fichiers CSV
    Par JavaEli dans le forum Langage
    Réponses: 1
    Dernier message: 30/11/2005, 23h42
  5. [Excel] séparateur pour les fichiers csv
    Par drinkmilk dans le forum Excel
    Réponses: 2
    Dernier message: 27/08/2005, 14h21

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo