IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Lire un fichier "mal encodé"


Sujet :

Java

  1. #1
    Membre habitué
    Inscrit en
    Novembre 2005
    Messages
    240
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 240
    Points : 145
    Points
    145
    Par défaut Lire un fichier "mal encodé"
    Bonjour,

    Dans un programme Java, je dois lire un fichier dont je ne connais pas l'encodage. Je le lis comme étant de l'unicode (UTF-8), mais à l'intérieur il y a des caractères "inconnus" (un losange noir avec un point d’interrogation).

    À défaut de savoir lire ces caractères correctement, j'ai éssayé de lire le fichier dans tous les Charset de la JVM, j'aimerais au moins pouvoir supprimé ces caractères.

    Est il possible de faire ça, sans le faire caractère par caractère, avec une regexp par ex.


    Merci d'avance,

  2. #2
    Expert éminent sénior
    Avatar de adiGuba
    Homme Profil pro
    Développeur Java/Web
    Inscrit en
    Avril 2002
    Messages
    13 938
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Java/Web
    Secteur : Transports

    Informations forums :
    Inscription : Avril 2002
    Messages : 13 938
    Points : 23 190
    Points
    23 190
    Billets dans le blog
    1
    Par défaut
    Salut,


    Je crois que cela dépend du charset, mais par défaut pour l'UTF-8 les caractères inconnus sont remplacé par le caractère "\ufffd".

    Maintenant tu peux utiliser un CharsetDecoder pour ignorer directement ces caractères lors de la lecture :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    	CharsetDecoder decoder = Charset.forName("utf-8").newDecoder();
    	decoder.onMalformedInput(CodingErrorAction.IGNORE);
    	decoder.onUnmappableCharacter(CodingErrorAction.IGNORE);

    a++

  3. #3
    Membre habitué
    Inscrit en
    Novembre 2005
    Messages
    240
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 240
    Points : 145
    Points
    145
    Par défaut
    Bonjour et merci de ta réponse.

    J'ai implanté le CharsetDecoder mais ça ne fonctionne pas. j'ai essayé de "jouer" avec les différentes possibilités des REPLACE, IGNORE, REPORT mais rien ne change.

    Là où j'ai un peu de mal à comprendre c'est cette histoire de caractère de replacement. Cela signifie que si je lis ma chaîne en UTF-8, chaque caractère qui n'est pas reconnu sera remplacé par fffd?

    Donc pour éviter ces caractères foireux est ce que je peux faire simplement :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    line.replaceAll(String.valueOf((char)0xfffd), "")
    et ainsi m'assurer que les caraactères de ma ligne soient tous unicode?

  4. #4
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 551
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 551
    Points : 21 607
    Points
    21 607
    Par défaut
    Citation Envoyé par nezdeboeuf62 Voir le message
    Donc pour éviter ces caractères foireux est ce que je peux faire simplement :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    line.replaceAll(String.valueOf((char)0xfffd), "")
    et ainsi m'assurer que les caraactères de ma ligne soient tous unicode?
    Oui, mais c'est à peu près la même chose que ce que fait le code d'adiGuba. Sauf si les 0xfffd étaient déjà là avant décodage, et étaient donc déjà de l'Unicode. De l'Unicode indiquant qu'au moment de la création du fichier, il y avait des caractères non-mappables.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  5. #5
    Membre habitué
    Inscrit en
    Novembre 2005
    Messages
    240
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 240
    Points : 145
    Points
    145
    Par défaut
    Donc si je comrprends bien le 0xfffd c'est un caractère qui indique qu'ici il y avait un caractère non unicode, mais le 0xfffd, en tant que tel, est un caractère qui est unicode et c'est pour ça que le decodage ne mache pas.

  6. #6
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 551
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 551
    Points : 21 607
    Points
    21 607
    Par défaut
    Yup. En fait il veut dire "ici il y avait une séquence d'octets qui ne pouvaient pas être décodées en caractère, ou bien des caractères qui n'existent pas en Unicode."
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  7. #7
    Membre habitué
    Inscrit en
    Novembre 2005
    Messages
    240
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 240
    Points : 145
    Points
    145
    Par défaut
    Ok merci pour les précisions.

    Donc en virant simplement ce caractère de ma chaine, je m'assure que le reste soit bien compatible unicode.

    Merci pour tout.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Lire un fichier encodé en UNICODE
    Par loman02 dans le forum XML
    Réponses: 9
    Dernier message: 16/02/2007, 18h19
  2. Accents mal encodes apres sauvegarde sous forme de fichier
    Par KillMePlease dans le forum Langage
    Réponses: 5
    Dernier message: 03/11/2006, 15h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo