[ICU4J] Pb de détection de caractères

**pcouas** · 26/06/2011, 15h30

Bonjour,

J'utilise l'API icu4j d'IBM pour detecter mon encodage de fichier, cela fonctionne en général, sauf quand les caractères spéciaux se situe en fin de fichier.
J'ai un cas ou ICU4J detect de l'ISO8959_1 et quand je delete une centaine de lignes, il detecte alors de l'UTF8.
Donc, existe t il un moyen d'allonger le nombre de lignes ou de caractères utilisé pour la detection par l'API?

Merci d'avance
Philippe

J'utilise actuellement

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
 
bis=new BufferedInputStream(new java.io.FileInputStream(argsBean.getFullPath()));
CharsetDetector cd = new CharsetDetector();
cd.setText(bis);
CharsetMatch cm = cd.detect();
String encodage= cm.getName();

**Rei Ichido** · 27/06/2011, 18h32

L'API ne fait que donner des propositions de Charset, sur la base de ce qui est utilisé dans le flux que tu lui passes.

Si tu supprimes les éléments qui justifient l'utilisation d'un charset plutôt qu'un autre, il est normal qu'il te propose un charset moins étendu !

**pcouas** · 27/06/2011, 22h49

Bonsoir,

Sauf que dans ce cas precis c'est l'UTF8 le bon charset, et il n'est detecté qu'apres suppresssion de lignes, comme si l'API s'arretait à un certains nombre de lignes ou caractères

Philippe

**tchize_** · 27/06/2011, 22h59

Quel type de contenu? ICU va utiliser des heuristiques qui se basent sur les probabilités d'avoir certaines suite de charactètre suivant a langue. Si vous voulez savoir quels charsets icu a détecté comme probables, utilisez detectAll().

**pcouas** · 30/06/2011, 22h13

Bonsoir
J' ai utilisé le detectALL, et il a plusieurs charset de remonter par cette méthode, l'UTF-8 arrive au10eme rang dans mon cas.
En ce moment je batis des Newsletters HTML en plusieurs langue FR, US, NL, ES, et j'ai une "moulinette" qui m'effectue des controles.
Parfois le fichier HTML d'entree doit etre lu en ISO8859_1 parfois en UTF-8, si je met le mauvais cela me flingue les caracteres.

Merci d'avance
Philippe

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
 
Les caracteres mal detecté lorsqu'il y a trop de lignes
AVANT MODIF
 
				L’Alpe d’Huez, c’est aussi un terrain de jeu <br/>de 263km pour amateurs de VTT…</a>
 
Apres modif
	L&acirc;Alpe d&acirc;Huez, c&acirc;est aussi un terrain de jeu <br/>de 263km pour amateurs de VTT&acirc;&Scaron;</a>
Selon que le texte est en debut ou en fin des 40Ko de textes la detection est bonne ou mauvaise !
 
Le log du detectall qui n'est utilisé qu'en log, c'est le detect que j'utilise actuelleent
 BufferedInputStream bis = new BufferedInputStream(new java.io.FileInputStream(argsBean.getFullPath()));
CharsetDetector cd = new CharsetDetector();
cd.setText(bis);
CharsetMatch cm = cd.detect();
String enc = cm.getName(); //encodage
 
CharsetMatch matches[];
 matches = cd.detectAll();
for (int m = 0; m < matches.length; m += 1) {
log.debug("\ncm.matche=" + m + " name=" + matches[m].getName()+" confidence="+matches[m].getConfidence());
 
cm.getName=ISO-8859-1
cm.getconfidence=33
2cm.getString Length=40603
cm.matche=0 name=ISO-8859-1 confidence=33
cm.matche=1 name=ISO-8859-1 confidence=26
cm.matche=2 name=ISO-8859-1 confidence=25
cm.matche=3 name=ISO-8859-1 confidence=24
cm.matche=4 name=ISO-8859-1 confidence=22
cm.matche=5 name=ISO-8859-1 confidence=22
cm.matche=6 name=ISO-8859-1 confidence=20
cm.matche=7 name=ISO-8859-1 confidence=20
cm.matche=8 name=ISO-8859-2 confidence=19
cm.matche=9 name=ISO-8859-1 confidence=14
cm.matche=10 name=ISO-8859-1 confidence=14
cm.matche=11 name=ISO-8859-9 confidence=12
cm.matche=12 name=Big5 confidence=10
cm.matche=13 name=EUC-KR confidence=10
cm.matche=14 name=EUC-JP confidence=10
cm.matche=15 name=GB18030 confidence=10
cm.matche=16 name=Shift_JIS confidence=10
cm.matche=17 name=UTF-8 confidence=10
....
....
 
//la lecture reel du fichier
        bufferedreader = new java.io.BufferedReader(
            new java.io.InputStreamReader(new java.io.FileInputStream(argsBean.getFullPath()), enc));

**tchize_** · 01/07/2011, 13h30

Envoyé par pcouas

le fichier HTML d'entree doit etre lu en ISO8859_1 parfois en UTF-8,

Comme le dit la doc de charset detector, pour du html, il faut filter les balise, sinon le detector va aussi utiliser le texte des balise (qui est du pur ascii) dans ses algorithmes. Pour ça utiliser

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

detector.enableInputFilter()

Maintenant, de toutes façons, c'est des heuristique, t'as aucune garantie que ça se viandra jamais. Si tu veux un système fullproof, impose le charset à tes éditeurs de contenu!

[ICU4J] Pb de détection de caractères

Java

Vue hybride

Discussions similaires

Partager

Partager