IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Java Discussion :

Encodage de String


Sujet :

Langage Java

  1. #1
    Membre confirmé Avatar de kululu
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2009
    Messages : 120
    Par défaut Encodage de String
    Bonjour

    J'ai un petit soucis:
    J'ai un ficher que je parse et le transforme. Au départ j'ai des mot avec des accents du style "année" et après mon parsage lorsque je réécris je me retrouve avec "ann?e".
    J'ai lu que les string et char étaient tous codés en UTF-16 comment transformé cela dans la bonne forme?

    Merci d'avance

  2. #2
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Quand vous lisez le fichier: lisez le avec le bon encodage. Les apis des Readers en java fournissent toujours un constructeur permettant de préciser l'encodage, il est recommandé de l'utiliser.

    Même chose quand vous écrivez, précisez l'encodage au Writer.

  3. #3
    Membre chevronné Avatar de NeptuS
    Profil pro
    Inscrit en
    Août 2005
    Messages
    392
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Août 2005
    Messages : 392
    Par défaut
    Une attention toute particulière à porter à l'encodage si tes fichiers ne sont pas écrits par ton programme mais viennent d'une source externe.
    -> source de beaucoup d'erreurs.

    Si tu édite toi-même des fichiers au notepad (fichiers de conf ou autres), vérifie bien l'encodage lorsque tu enregistres.

  4. #4
    Membre confirmé Avatar de kululu
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2009
    Messages : 120
    Par défaut
    Merci de vos réponses super rapide

    Mais j'ai pas compris vos explications (je suis vraiment nul dans ce domaine j'ai jamais compris pourquoi il existe autant de format différents )

    En faite ce qu'il se passe dans mon implémentation:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    fis = new FileInputStream(file);
    fc = fis.getChannel();
    size = (int) fc.size();
    bBuff = ByteBuffer.allocate(size);
     
    fc.read(bBuff);
    bBuff.flip();
    Et ensuite je lis byte par byte en les transformant en char :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    boucle if
        stringBuffer.append(Character.toLowerCase((char) bBuff.get(i)));
    Et c'est a partir de là que j'ai mes "?" je pense qu'a partir de là c'est trop tard pour re-encoder et qu'il faut agir dès que je manipule mon bytebuffer et mon channel mais je ne sais pas comment m'y prendre

  5. #5
    Expert éminent
    Avatar de adiGuba
    Homme Profil pro
    Développeur Java/Web
    Inscrit en
    Avril 2002
    Messages
    13 938
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Java/Web
    Secteur : Transports

    Informations forums :
    Inscription : Avril 2002
    Messages : 13 938
    Billets dans le blog
    1
    Par défaut
    Salut,


    Le peu de code que tu donnes fait un peu peur...

    Tu pourrais donner un peu plus de code et expliquer ce que tu fais, et ce que tu veux obtenir au final.


    a++

  6. #6
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 582
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 582
    Par défaut
    Il y a vraiment besoin d'utiliser les channels ?

    Un new InputStreamReader(new FileInputStream(file), "iso-8859-1") serait nettement plus simple.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  7. #7
    Membre confirmé Avatar de kululu
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2009
    Messages : 120
    Par défaut
    Citation Envoyé par adiGuba Voir le message
    Le peu de code que tu donnes fait un peu peur...
    LoL pourquoi??? j'oublie pas de close les flux hein

    Je vais test avec le inputStreamReader et je vous tiens au jus

  8. #8
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 582
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 582
    Par défaut
    Citation Envoyé par kululu Voir le message
    LoL pourquoi??? j'oublie pas de close les flux hein
    On ne convertit pas des octets en caractères avec un simple cast. On utilise un charset. (Ne serait-ce que parce qu'un caractère peut très bien faire plusieurs octets, et dans des cas plus rares un octet plusieurs caractères.)
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  9. #9
    Membre chevronné Avatar de NeptuS
    Profil pro
    Inscrit en
    Août 2005
    Messages
    392
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Août 2005
    Messages : 392
    Par défaut
    Citation Envoyé par thelvin Voir le message
    On ne convertit pas des octets en caractères avec un simple cast. On utilise un charset. (Ne serait-ce que parce qu'un caractère peut très bien faire plusieurs octets, et dans des cas plus rares un octet plusieurs caractères.)
    Il me semblait que les char étaient codés sur minimum un octet

  10. #10
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 582
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 582
    Par défaut
    Je viens d'inventer, sur mon cahier de prises de notes, l'encoding utf-4.
    Il fonctionne par unités logiques de 4 bits, donc un demi-octet. Dans les (quelques) cas les plus favorables, ça fait deux caractères par octets.

    De ce que j'en ai vu, les APIs Java peuvent parfaitement gérer ça. Je m'amuserai donc à l'implémenter un jour.
    (En fait, je suis à peu près sûr d'avoir vu des encodages qui produisent en moyenne 1.2 caractère par octet quand on regarde que les parties les plus productives de leurs flux. Mais pas moyen de les retrouver.)
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  11. #11
    Membre confirmé Avatar de kululu
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2009
    Messages : 120
    Par défaut
    Comment dois-je procéder pour récupérer tableau ou List ou Buffer de char avec le InputStreamReader(new FileInputStream(file), "iso-8859-1") ???

    Mon implémentation récupère un fichier ou il y a du texte il récupère les mot byte par byte (pour optimiser un peu) pour obtenir des char ensuite je stringbufferize selon un algo type Lex Yacc (avec des délimiteurs particulier)

    Ex:
    j'ai la liste de char suivante

    t,o,t,o,(,x,1,0,)

    Je vais me retrouver avec 3 string toto , (x10 , )
    Voila

    mon code maintenant


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    try {
    			int size;
    			ByteBuffer bBuff;
     
    			fis = new FileInputStream(file);
    			fc = fis.getChannel();
    			size = (int) fc.size();
    			bBuff = ByteBuffer.allocate(size);
    			CharBuffer cbuf = CharBuffer.allocate(size);
     
    			fc.read(bBuff);
    			bBuff.flip();
     
    			MonParseur ly = IModuleFactory.applifact.MonParseur(bBuff, size,this.file.getName());
    			fis.close();
    			fc.close();
    		} catch (FileNotFoundException e) {	
    		} catch (IOException e) {
    		}
    La première chose que fait MonParseur et de convertir mon buffer de byte en string

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    		for (int i = 0; i < size; i++) {
     
    			sBuffer.append(Character.toLowerCase((char) bBuff.get(i)));
    		}
    	}
    J'ai été assez clair?

  12. #12
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 582
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 582
    Par défaut
    Une manière serait de construire un StringBuilder, d'y mettre tous les caractères lus avec le Reader, et de faire un toString() quand on a terminé le Reader, pour transformer le tout en String.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  13. #13
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    reader r = new InputStreamReader(source,"UTF-8"); // (utiliser le bon encodage ;) )
    char[] buffer = new char[512];
    int read = 0;
    StringBuilder builder = new StringBuilder(fichier.size()); // pour avoir éviter les réallocations couteuses
    while ( (read=reader.read(buffer))!=-1)
       builder.append(buffer,0,read);
    String texte = builder.toString();

  14. #14
    Expert éminent
    Avatar de adiGuba
    Homme Profil pro
    Développeur Java/Web
    Inscrit en
    Avril 2002
    Messages
    13 938
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Java/Web
    Secteur : Transports

    Informations forums :
    Inscription : Avril 2002
    Messages : 13 938
    Billets dans le blog
    1
    Par défaut
    @kululu : et j'avais bien raison... malheureusement !


    • Déjà tes variables sont déclarés ont ne sait où ! En règle général il est préférables de déclarer les variables locales lors de leurs premières utilisation, afin d'éviter d'augmenter inutilement leurs scopes.
      On ne fait pas du C inutile de tout déclarer en début de méthode.
    • Deuxièmement tu parles de lire du texte, mais tu passes par des Channels ! Ou comment se compliquer la vie pour rien.
    • Les catch vides dont affreux !
    • Enfin ta conversion byte -> char est complètement incorrect !



    Enfin tu parles d'optimisations... mais non seulement c'est prématuré (on ne doit penser à optimiser qu'une fois qu'on a déceler l'origine du problème de perf), mais je suis persuadé que ton code est moins performant que le code "basique" de tchize_



    @tchize_ : il manque juste le try/finally pour la libération des ressources...


    a++

  15. #15
    Membre confirmé Avatar de kululu
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2009
    Messages : 120
    Par défaut
    ça à pas marché tchize_

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
     
    try {
    		fis = new FileInputStream(file);
    		Reader r = new InputStreamReader(fis,"UTF-8"); // (utiliser le bon encodage ;) )
    		char[] buffer = new char[512];
    		int read = 0;
    		StringBuilder builder = new StringBuilder((int) this.file.length()); // pour avoir éviter les réallocations couteuses
     
    			while ( (read=r.read(buffer))!=-1){
    				builder.append(buffer,0,read);
    				String texte = builder.toString();
    				System.out.println(texte.toString());
    			}
    		} catch (IOException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		}
    Il me met toujours des ?? à la places des é


    Edit:
    @adiGuba oui les catch vide j'avoue :p et pour les byte et les channel je m'en rends compte maintenant que c'est un peu la galère...

  16. #16
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Comme le dit mon commentaire:

    // (utiliser le bon encodage )

  17. #17
    Membre confirmé Avatar de kululu
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2009
    Messages : 120
    Par défaut
    Autant pour moi tchize_

  18. #18
    Membre confirmé Avatar de kululu
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2009
    Messages : 120
    Par défaut
    Je reviens à la charge désolé

    J'ai un autre soucis, donc mon programme me génère plusieurs fichier xml pour éviter de remettre la main dans la cambouis et modifier mon impélmentation j'ai créé une classe qui me permettrai de fusionner tous ces fichiers générés. Devinez quoi les problèmes d'encodages sont revenus . Je m'en sors vraiment pas avec les manipulations de flux et de charset

    voici mon bout de code

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
     
    public void fusion(String destFile,LinkedList<String> sourceFiles)
    			throws IOException {
    		File file = new File(destFile);
    		FileOutputStream fos = new FileOutputStream(file);
    		OutputStreamWriter out = new OutputStreamWriter(fos,"ISO-8859-1");
    		try {
    			char[] buf = new char[8192];
    			int read = 0;
     
    			for (String filename : sourceFiles) {
    				InputStream in = new FileInputStream(filename);
    				Reader r =  new InputStreamReader(in,"ISO-8859-1");
    				try {
     
    					while ((read = r.read(buf)) != -1) {
    						out.write(buf, 0, read); 
    					}
    				} finally {
    					in.close();
    				}
    			}
     
    		} finally {
    			out.close();
    		}
    	}
    Pourquoi cela ne marche t-il pas?
    Merci d'avance

  19. #19
    Expert éminent
    Avatar de adiGuba
    Homme Profil pro
    Développeur Java/Web
    Inscrit en
    Avril 2002
    Messages
    13 938
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Java/Web
    Secteur : Transports

    Informations forums :
    Inscription : Avril 2002
    Messages : 13 938
    Billets dans le blog
    1
    Par défaut
    Ceci devrait fonctionner... à condition que tes fichiers soient bien encodé en "ISO-8859-1" !



    Maintenant, pour simplement fusionner des fichiers te te contrefous complètement de leurs encodages : il suffit de faire une fusion binaire !



    a++

  20. #20
    Membre chevronné Avatar de NeptuS
    Profil pro
    Inscrit en
    Août 2005
    Messages
    392
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Août 2005
    Messages : 392
    Par défaut
    Je ne suis pas d'accord avec toi adiGuba.
    Pour deux raisons :

    - La fusion de deux xml ne se résume pas à une concaténation. Si tu dois lire le contenu avant de le fusionner, alors tu retombes dans la problématique d'encodage.
    - Si tu juxtapose, en binaire, 2 caractères dans des encodages différents, l'un des deux sera mal lu à la relecture du fichier résultat : la lecture est encore dépendante de l'encodage.

    à discuter.

+ Répondre à la discussion
Cette discussion est résolue.
Page 1 sur 2 12 DernièreDernière

Discussions similaires

  1. Encodage des string sur une socket
    Par barbug dans le forum Qt
    Réponses: 17
    Dernier message: 15/02/2009, 14h17
  2. Encodage de string bizzard
    Par aeroox dans le forum C#
    Réponses: 3
    Dernier message: 26/11/2008, 19h26
  3. problème d'encodage de String
    Par troussepoil dans le forum Langage
    Réponses: 9
    Dernier message: 20/02/2008, 21h11
  4. encodage d'une string en XML
    Par maxvador dans le forum Général JavaScript
    Réponses: 3
    Dernier message: 24/08/2006, 17h57
  5. [String] Encodage de caractères pour une sortie HTML
    Par elitost dans le forum API standards et tierces
    Réponses: 7
    Dernier message: 10/11/2004, 08h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo