IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

[ICU4J] Pb de détection de caractères


Sujet :

Java

  1. #1
    Membre éprouvé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 705
    Détails du profil
    Informations personnelles :
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 705
    Points : 934
    Points
    934
    Par défaut [ICU4J] Pb de détection de caractères
    Bonjour,

    J'utilise l'API icu4j d'IBM pour detecter mon encodage de fichier, cela fonctionne en général, sauf quand les caractères spéciaux se situe en fin de fichier.
    J'ai un cas ou ICU4J detect de l'ISO8959_1 et quand je delete une centaine de lignes, il detecte alors de l'UTF8.
    Donc, existe t il un moyen d'allonger le nombre de lignes ou de caractères utilisé pour la detection par l'API?

    Merci d'avance
    Philippe

    J'utilise actuellement
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
     
    bis=new BufferedInputStream(new java.io.FileInputStream(argsBean.getFullPath()));
    CharsetDetector cd = new CharsetDetector();
    cd.setText(bis);
    CharsetMatch cm = cd.detect();
    String encodage= cm.getName();

  2. #2
    Membre chevronné
    Inscrit en
    Août 2009
    Messages
    1 073
    Détails du profil
    Informations forums :
    Inscription : Août 2009
    Messages : 1 073
    Points : 1 806
    Points
    1 806
    Par défaut
    L'API ne fait que donner des propositions de Charset, sur la base de ce qui est utilisé dans le flux que tu lui passes.

    Si tu supprimes les éléments qui justifient l'utilisation d'un charset plutôt qu'un autre, il est normal qu'il te propose un charset moins étendu !

  3. #3
    Membre éprouvé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 705
    Détails du profil
    Informations personnelles :
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 705
    Points : 934
    Points
    934
    Par défaut
    Bonsoir,

    Sauf que dans ce cas precis c'est l'UTF8 le bon charset, et il n'est detecté qu'apres suppresssion de lignes, comme si l'API s'arretait à un certains nombre de lignes ou caractères

    Philippe

  4. #4
    Expert éminent sénior
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 481
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 481
    Points : 48 806
    Points
    48 806
    Par défaut
    Quel type de contenu? ICU va utiliser des heuristiques qui se basent sur les probabilités d'avoir certaines suite de charactètre suivant a langue. Si vous voulez savoir quels charsets icu a détecté comme probables, utilisez detectAll().

  5. #5
    Membre éprouvé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 705
    Détails du profil
    Informations personnelles :
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 705
    Points : 934
    Points
    934
    Par défaut
    Bonsoir
    J' ai utilisé le detectALL, et il a plusieurs charset de remonter par cette méthode, l'UTF-8 arrive au10eme rang dans mon cas.
    En ce moment je batis des Newsletters HTML en plusieurs langue FR, US, NL, ES, et j'ai une "moulinette" qui m'effectue des controles.
    Parfois le fichier HTML d'entree doit etre lu en ISO8859_1 parfois en UTF-8, si je met le mauvais cela me flingue les caracteres.

    Merci d'avance
    Philippe

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
     
    Les caracteres mal detecté lorsqu'il y a trop de lignes
    AVANT MODIF
     
    				L’Alpe d’Huez, c’est aussi un terrain de jeu <br/>de 263km pour amateurs de VTT…</a>
     
    Apres modif
    	L&acirc;Alpe d&acirc;Huez, c&acirc;est aussi un terrain de jeu <br/>de 263km pour amateurs de VTT&acirc;&Scaron;</a>
    Selon que le texte est en debut ou en fin des 40Ko de textes la detection est bonne ou mauvaise !
     
    Le log du detectall qui n'est utilisé qu'en log, c'est le detect que j'utilise actuelleent
     BufferedInputStream bis = new BufferedInputStream(new java.io.FileInputStream(argsBean.getFullPath()));
    CharsetDetector cd = new CharsetDetector();
    cd.setText(bis);
    CharsetMatch cm = cd.detect();
    String enc = cm.getName(); //encodage
     
    CharsetMatch matches[];
     matches = cd.detectAll();
    for (int m = 0; m < matches.length; m += 1) {
    log.debug("\ncm.matche=" + m + " name=" + matches[m].getName()+" confidence="+matches[m].getConfidence());
     
    cm.getName=ISO-8859-1
    cm.getconfidence=33
    2cm.getString Length=40603
    cm.matche=0 name=ISO-8859-1 confidence=33
    cm.matche=1 name=ISO-8859-1 confidence=26
    cm.matche=2 name=ISO-8859-1 confidence=25
    cm.matche=3 name=ISO-8859-1 confidence=24
    cm.matche=4 name=ISO-8859-1 confidence=22
    cm.matche=5 name=ISO-8859-1 confidence=22
    cm.matche=6 name=ISO-8859-1 confidence=20
    cm.matche=7 name=ISO-8859-1 confidence=20
    cm.matche=8 name=ISO-8859-2 confidence=19
    cm.matche=9 name=ISO-8859-1 confidence=14
    cm.matche=10 name=ISO-8859-1 confidence=14
    cm.matche=11 name=ISO-8859-9 confidence=12
    cm.matche=12 name=Big5 confidence=10
    cm.matche=13 name=EUC-KR confidence=10
    cm.matche=14 name=EUC-JP confidence=10
    cm.matche=15 name=GB18030 confidence=10
    cm.matche=16 name=Shift_JIS confidence=10
    cm.matche=17 name=UTF-8 confidence=10
    ....
    ....
     
    //la lecture reel du fichier
            bufferedreader = new java.io.BufferedReader(
                new java.io.InputStreamReader(new java.io.FileInputStream(argsBean.getFullPath()), enc));

  6. #6
    Expert éminent sénior
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 481
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 481
    Points : 48 806
    Points
    48 806
    Par défaut
    Citation Envoyé par pcouas Voir le message
    le fichier HTML d'entree doit etre lu en ISO8859_1 parfois en UTF-8,
    Comme le dit la doc de charset detector, pour du html, il faut filter les balise, sinon le detector va aussi utiliser le texte des balise (qui est du pur ascii) dans ses algorithmes. Pour ça utiliser
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    detector.enableInputFilter()
    Maintenant, de toutes façons, c'est des heuristique, t'as aucune garantie que ça se viandra jamais. Si tu veux un système fullproof, impose le charset à tes éditeurs de contenu!

Discussions similaires

  1. Problème de détection de caractère
    Par prorider68 dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 28/05/2013, 14h02
  2. [strncmp] Problème avec détection de caractère '
    Par Henwiro dans le forum MATLAB
    Réponses: 2
    Dernier message: 29/03/2012, 10h33
  3. Détection de caractères dans une chaine
    Par Olaf2 dans le forum VB 6 et antérieur
    Réponses: 4
    Dernier message: 06/12/2009, 02h05
  4. Détection des caractères spéciaux
    Par nkta1 dans le forum C
    Réponses: 7
    Dernier message: 11/08/2009, 09h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo