UTF-8 est-il standard ?

**JM-R** · 18/12/2008, 15h06

Bonjour,

Je reçois un fichier supposé être au format UTF-8 Mais quand je l' ouvre dans un éditeur (Scite, notepad++), il n'affiche pas les caractères accentués même en mode UTF8.
J'ai regardé le binaire du fichier par rapport à un fichier UTF8 qui marche et j'ai vu que le codage du é par exemple est différent:
Fichier OK: C3A9 (en hexa)
Fichier KO: 65CC81 soit e + CC81

Je voudrais dire à celui qui m'a fourni ce fichier que le codage n'est pas bon mais les caractères sont affichés correctement sous FireFox ou Word donc il va me dire qu'il est bon!

D'ou ma question: existe-t-il vraiment un standard pour coder les caractères en UTF8 (par exemple é sera toujours le même) ou y-a-t-il plusieurs codages possibles ?
Si quelqu'un peut m'éclairer, ce serai sympa.

J-Michel

**droggo** · 18/12/2008, 15h24

Jei,

Unicode accepte plusieurs manières de coder certains caractères, essentiellement ceux qui ont des signes diacritiques (accents, cédille pour nous, il en est d'autres), ce qui se traduit logiquement par des codes UTF8 différents.

Si Firefox et Word affichent correctement ton caractère, c'est que les 2 codages sont valides. Tant pis pour Scite, notepad++.

**JM-R** · 18/12/2008, 18h02

Envoyé par droggo

Jei,

Unicode accepte plusieurs manières de coder certains caractères, essentiellement ceux qui ont des signes diacritiques (accents, cédille pour nous, il en est d'autres), ce qui se traduit logiquement par des codes UTF8 différents.

Si Firefox et Word affichent correctement ton caractère, c'est que les 2 codages sont valides. Tant pis pour Scite, notepad++.

Le problème, c'est qu'il n'y a pas que scite et notepad.
Par exemple, si je veux convertir le fichier UFT-8 avec iconv, l'accent du é est bien rendu avec C3A9 mais pas avec 65CC81
Je m'étonne quand même qu'il n'y ait pas de standard pour coder un simple é en unicode. Comment savoir quels sont les codes possibles pour é par exemple ?

J-Michel

**sinok** · 18/12/2008, 18h49

Bonjour,

Firefox choisit lui même le charset à utiliser.

Mais tu peux le changer via le menu affichage>Encodage des caractères, si ça se trouve il visualise son fichier en ISOXXXX sans s'en rendre compte.

Mais sinon il y a un standard pour les codes caractère en UTF-8, et tu trouveras toutes les tables à l'endroit suivant: http://www.unicode.org/charts/

Pour le codage standard su é la table est la suivante: http://www.unicode.org/charts/PDF/U0080.pdf

**JM-R** · 18/12/2008, 19h12

Envoyé par sinok

Bonjour,

Firefox choisit lui même le charset à utiliser.

Mais tu peux le changer via le menu affichage>Encodage des caractères, si ça se trouve il visualise son fichier en ISOXXXX sans s'en rendre compte.

J'ai pas de problème avec FireFox. Quand je choisi l'encodage UTF-8, j'ai bien mon é avec les deux fichiers.

Mais sinon il y a un standard pour les codes caractère en UTF-8, et tu trouveras toutes les tables à l'endroit suivant: http://www.unicode.org/charts/

Pour le codage standard su é la table est la suivante: http://www.unicode.org/charts/PDF/U0080.pdf

Merci pour les liens. Mais je ne vois qu'une façon de coder le é.
Pourquoi en UTF-8, je me retrouve avec 2 codages différents pour cette lettre. Je n'y comprend rien.
Quelqu'un sait par quelle opération ce 00E9 pour é se transforme en C3A9 ou 65CC81 selon le fichier UFT-8.

Désolé d'insister mais je n'ai toujours pas compris.
J-Michel

**sinok** · 18/12/2008, 19h39

00E9 est juste la notation interne à UTF-8.
Une foie encodé en Hexa ça donne C3 A9

Bon ensuite les deux sont bien valides après vérification.

En effet

UTF-8(65 CC 81) = U+0065 U+0301 = e + accent aigu = é
UTF-8(C3 A9) = U+00E9 = é

**JM-R** · 18/12/2008, 19h57

Envoyé par sinok

00E9 est juste la notation interne à UTF-8.
Une foie encodé en Hexa ça donne C3 A9

Bon ensuite les deux sont bien valides après vérification.

En effet

UTF-8(65 CC 81) = U+0065 U+0301 = e + accent aigu = é
UTF-8(C3 A9) = U+00E9 = é

et merci beaucoup! J'ai enfin compris.
Il y aurait donc seulement 2 façons de coder un caractère accentué en UTF-8:
- Soit le code du caractère lui même (é=E9)
- Soit le caractère sans son accent (e=65) + le code de l'accent
La deuxième méthode a l'avantage, après élimination des accents, d'avoir un texte quand même lisible (il nous reste e)
Malheureusement, elle semble moins implémenté dans les programmes qui lisent l'UTF-8.
Reste pour moi à tester si les classes Java ou dotnet lisent bien les 2 façons de coder les accents.

Encore merci, je m'endormirai moins bête ce soir.
Jean-Michel