[Encoding] Détection encodage d'une String

**kij** · 21/04/2008, 10h08

Bonjour,

Je viens à vous pour vous demander conseil : j'aimerai dans l'un de mes programmes (java), détecter l'encodage d'une chaine de caractère (utf-8 en l'occurrence).
J'essaie de trouver sur le net quelque chose mais sans grand résultat pour le moment, est-ce que quelqun en sait suffisamment sur le sujet pour m'aider ?

Pour l'instant je test l'utilisation de ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
Charset clatin1 = Charset.forName("UTF-8");
CharsetDecoder decoder = clatin1.newDecoder();

Mais je n'arrive pas à détecter si une chaine en entrée est encodée en UTF-8 ou non.

Merci à vous.

**DevTeam_** · 21/04/2008, 11h00

Salut,

Voici une récente discussion qui pourrait t'intéresser pour ton problème : http://www.developpez.net/forums/sho...light=encodage

**kij** · 21/04/2008, 16h07

Re,

Merci pour ton aide et pour le lien vers cette discussion pour le moins intéressante.
Je n'ai pas pu corriger mon bug avec ceci comme je voulais, mais ça m'a permit d'y voir un peu plus clair pour ce qui est des encodages.

Mon bug à résoudre n'ayant aucun rapport spécial avec la question je ne mettrais pas de réponse globale donc, mais si quelqun passe par là avec un problème d'encodage, qu'il suive le lien plus haut

Merci encore DevTeam_.

**kij** · 03/09/2009, 17h09

Hello,

Ayant trouvé récemment LA solution, je me permet de la poster ici, ce qui permettra de résoudre définitivement ce problème.

Il faut utiliser (par exemple, c'est la solution que j'ai trouvé) l'API de mozilla qui permet de détecter l'encoding de données.

Source où j'ai trouvé la chose : http://forums.sun.com/thread.jspa?th...rt=30&tstart=0

Explications :

Il faut tout d'abord télécharger le JAR de l'API en question pour l'inclure dans le classpath de votre projet, il est téléchargeable ici :
http://www.findjar.com/jar/net.sourc...t-1.0.jar.html

Ensuite, comme dans la discussion du premier lien donné, il vous faut créer deux classes dans le même package (plus facile pour l'utilisation, et comme leur fonctionnalité vont ensemble...).

La première qui étendra l'interface 'nsICharsetDetectionObserver' de l'API mozilla :
Code de 'CharsetInputObserver.java' :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
 
 
import org.apache.log4j.Logger;
import org.mozilla.intl.chardet.nsICharsetDetectionObserver;
 
public class CharsetInputObserver implements nsICharsetDetectionObserver {
 
	static int READY=2;
	static int RUNNING=1;
	static int IDLE=0;
 
	private int status = IDLE;
	private String charsetToUse = "";
 
	static Logger logger = Logger.getLogger(CharsetInputObserver.class);
 
	public void Notify(String charset) {
 
		logger.debug(" >> charset detected --> " + charset);
 
		charsetToUse = charset;
		status = READY;
	}
 
	public String getCharsetToUse() {
		return charsetToUse;
	}
 
	public void setCharsetToUse(String charsetToUse) {
		this.charsetToUse = charsetToUse;
	}
 
	public int getStatus() {
		return status;
	}
 
	public void setStatus(int status) {
		this.status = status;
	}
}

La seconde, qui constitue la classe de traitement, à vous donc de la modifier selon vos besoins. En voici une implémentation générique pour récupérer l'encoding au format texte pour un tableau de byte donné :

Code de 'CharsetInputHelper.java' :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
 
 
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
 
 
import org.apache.log4j.Logger;
import org.mozilla.intl.chardet.nsDetector;
import org.mozilla.intl.chardet.nsPSMDetector;
 
public class CharsetInputHelper {
 
	Logger logger = Logger.getLogger(CharsetInputHelper.class);
 
	private nsDetector det = null;
	private CharsetInputObserver obsvr = null;
 
	public CharsetInputHelper ( ){
 
		int lang = nsPSMDetector.ALL; //or nsPSMDetector.JAPANESE and so. See Jchardet API for more information
 
		det = new nsDetector(lang);
		obsvr = new CharsetInputObserver();
 
	}
 
	public String whichEncodingIs ( byte[] theData ){
 
		boolean isAscii = true ;
		det.Init( obsvr );
 
		try {
 
			// Check if the stream is only ascii.
			if (isAscii)
				isAscii = det.isAscii(theData,theData.length);
 
			// DoIt if non-ascii and not done yet.
			// Here I've removed the && !done
			//because I wanted to see all charsets encodings
			//that Jchardet detects in a file
 
			if (!isAscii)
				det.DoIt(theData,theData.length, false);
 
 
		} catch (Exception e) {
			// TODO Auto-generated catch block
			System.err.println("[whichEncodingIs] Error : "+e.getMessage());
			e.printStackTrace();
			obsvr.setCharsetToUse("CP-500");
		} finally {
			det.DataEnd();
		}
 
		if (isAscii){
			obsvr.setCharsetToUse("ASCII");
		}
 
		return obsvr.getCharsetToUse();
	}
 
}

Enfin, l'utilisation de la seconde classe sur vos tableaux de byte au sein de votre code (un exemple issu de mon code) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
 
	byte[] theData = new byte[count];
	System.arraycopy(record, offset, theData, 0, count);
 
	CharsetInputHelper myHelper = new CharsetInputHelper();
	String theEncoding = myHelper.whichEncodingIs(theData);
	System.out.println("Encoding found = "+theEncoding);

Voilà, vous savez tout

ps: peut-être pourrait-on créé une question / réponse de plus dans la FAQ au bon endroit, cela me semble plutôt judicieux puisque le sujet de ce topic ne s'y trouve pas et me semble assez pertinent ?

**X-Wing** · 22/12/2010, 17h57

Bonjour à tous,

je me permet d'ajouter une note ici car j'ai rencontré un problème similaire que je n'arrive pas à résoudre.

J'ai lu divers sujets sur ce forum, mais aucun ne m'a fournit une solution adéquat.

A chaque fois on parle de solutions qui permettent de trouver l'encodage à l'aide du BOM ou encore du charset (pour moi l'un est la conséquence de l'autre).

Voici mon problème:

J'utilise un batch java 6 (JDK1.6) avec base db2 v9.5.
J'ai besoin de faire la différence entre les fichiers encodés en ISO-8859-15 et ceux encodés en UTF-8 sans BOM.

Après quelques tests, il apparait que l'utilisation de jchardet-1.0.jar ne permet pas celà.

Quelqu'un aurait-il une autre solution?

**thelvin** · 22/12/2010, 23h24

Envoyé par X-Wing

Après quelques tests, il apparait que l'utilisation de jchardet-1.0.jar ne permet pas celà.

Si, c'est même son seul intérêt, mais :

- C'est une impossibilité mathématique que de déterminer avec certitude le charset d'un texte dont on ne connaît pas le charset. Et jchardet ne pousse quand même pas l'intelligence artificielle trop loin. Bref, des erreurs peuvent arriver.
C'est pour ça qu'on vous dit sans arrêt de déjà connaître l'encodage, ou de l'indiquer d'une quelconque manière à l'intérieur du texte à décoder : parce que ça, c'est fiable.

- Il lui faut beaucoup d'octets à auto-détecter. Il faut qu'il ait l'occasion de tomber sur des accents, plusieurs fois de sorte que s'il y a des gribouillis ou des erreurs au début du texte, ça ne change pas la décision de l'auto-détection.

- Du fait des maigres différences entre iso-8859-1 et iso-8859-15, un détecteur automatique ne fera pas la différence. C'est pas grave : si tu n'as que du iso-8859-15 ou de l'utf-8, et qu'on te détecte du iso-8859-1, tu n'as qu'à te dire qu'en fait, c'est iso-8859-15.

[Encoding] Détection encodage d'une String

API standards et tierces Java

Vue hybride

Discussions similaires

Partager

Partager