java URLDecoder et reparsing String

**lolo92** · 09/12/2010, 14h15

Bonjour,

Voilà, je parse des logs et recois parfois des incohérences, comme un % entamant un caractère Unicode (au lieu de \).
J'essaie donc de remplacer le % par \ mais le URLDecoder ne fonctionne pas - visiblement - sur un .replace !

Mon code (pas propre mais c'est pour du test !)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
    String text     = "fabricant%20housse%20poly%u00e9thyl%u00e8ne";
//    String text     = "fabricant%20housse%20poly\u00e9thyl\u00e8ne";
    try {
      String keyword  = java.net.URLDecoder.decode(text, "UTF-8");
      System.out.println("kw décodé step 1 : " + keyword);
    } catch (Exception e) {
      System.out.println("Exception, on continue en remplaçant les %");
      try {
        String keyword = java.net.URLDecoder.decode(text.replace("%u00", "\\u00"), "UTF-8");
        System.out.println("kw décodé step 2 : " + keyword);
      } catch (Exception e1) {
      }
    }

Et j'obtiens comme résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
Exception, on continue en remplaçant les %
kw décodé step 2 : fabricant housse poly\u00e9thyl\u00e8ne

J'ai laissé volontairement le text en commentaire car si au lieu d'utiliser celui mal encodé j'utilise celui qui est en commentaires (donc directement au bon format), ça fonctionne correctement ! Je n'arrive pas à comprendre.

En d'autres termes et pour tenter de simplifier :
decode("\u00e9") me donne bien "fabricant housse poly\u00e9thyl\u00e8ne"
decode( "%u00e9" en remplacant le % par \ ) me donne "fabricant housse poly\u00e9thyl\u00e8ne"

Je crois comprendre qu'une fois le replace fait, Java ne considère plus les \ comme des caractères de contrôles, mais je nage un peu !

Merci

--
Laurent

**thelvin** · 09/12/2010, 15h18

Envoyé par lolo92

Voilà, je parse des logs et recois parfois des incohérences, comme un % entamant un caractère Unicode (au lieu de \).

C'est la manière correcte de le faire dans une URL.

Ce n'est pas java qui a inventé les URLs, ce n'est pas Java qui décide comment on les écrit.

**lolo92** · 09/12/2010, 15h29

hmm, pour moi la manière correcte c'est effectivement un % mais avec de l'urlencoding derrière (où effectivement un %20 donne un espace, par exemple).

Ceci dit, en l'occurrence c'est une erreur que j'ai : un "é" doit être encodé normalement en %C3%A9.
Il se trouve que dans certains cas j'ai ce "é" en unicode, i.e. \U00E9, ce qui est également correct (moins, mais correct quand même

)

Ici c'est un mix des 2 => j'ai %u00e9 !

Bref, en tout cas mon URLDecoder ne fonctionne pas avec la fonction replace

**lolo92** · 10/12/2010, 17h31

Bon je me réponds à moi-même, merci à Nicolas qui m'a bien aidé sur ce coup-là

Voici donc une fonction qui ré-unicode des caractères mal unicodés !

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
 
String unicodify (String input)
   {
       StringBuffer output = new StringBuffer();
       try {
           int i, start=0, offset=0;
           java.util.regex.Pattern p = java.util.regex.Pattern.compile ("%u[a-fA-F0-9]{4}");
           java.util.regex.Matcher m = p.matcher (input);
 
           while (m.find()) {
               start = m.start ();
               i = Character.digit (input.charAt(start+2), 16) << 12;
               i |= Character.digit (input.charAt(start+3), 16) << 8;
               i |= Character.digit (input.charAt(start+4), 16) << 4;
               i |= Character.digit (input.charAt(start+5), 16);
 
               output.append (input.substring (offset, start) + (char)i);
               offset = start + 6;
           }
           output.append (input.substring (offset));
           return new String (output);
 
       } catch (Exception e) {
           e.printStackTrace();
       }
       return input;
   }

java URLDecoder et reparsing String

Langage Java

Discussions similaires

Partager

Partager