UTF 8 et son entête

**Gluups** · 21/01/2023, 20h08

Bonjour tout le monde,

Pour savoir si un fichier texte a un entête UTF8, j'ai ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
 
		private static Boolean IsUtf8(string path)
		{
			byte[] O = new byte[4];
            using (FileStream SourceStream = File.Open(path, FileMode.Open))
			{
				SourceStream.Seek(0, SeekOrigin.Begin);
				SourceStream.Read(O, 0, 4);
			}
			byte[] tref = new byte[] {
				(byte)0xEF, (byte)0xBB, (byte)0xBF, (byte)0x5B };
			return O.SequenceEqual(tref);
		}

Je teste donc la présence des caractères "ï»¿[" et ça marche, or dans le fichier je n'ai que les trois premiers caractères, après c'est le contenu, et il commence par un g.

J'ai bien vu il n'y a pas longtemps une doc avec 3 caractères dans l'entête UTF 8, mais dans ma fonction c'est bien 4 caractères, pas vrai ?

Quelqu'un saurait-il me dire comment ça se fait que ça marche, alors que j'ai l'impression que ça ne devrait pas ?

Par ailleurs, quand il n'y a pas d'entête, le programme est supposé "deviner" l'encodage d'après le contenu texte du fichier. Mais ... On fait ça comment ?

**DelphiManiac** · 21/01/2023, 21h40

Ici https://unicode.org/faq/utf_bom.html une page explicative des bytes analysés par ton code et à priori le BOM utf8 est de 3 bytes, pas 4.

EF BB BF

Ton code semble donc faux, pourquoi ça marche ou pas ? Sans les fichiers de tests que tu utilises pour en tirer tes conclusions, difficile de dire (ou alors tous les fichiers qui passent commencent par un '[' ).

Pour ce qui est de deviner l'encodage, je ne connais pas de solution.

**Gluups** · 21/01/2023, 23h06

Envoyé par DelphiManiac

Ici https://unicode.org/faq/utf_bom.html une page explicative des bytes analysés par ton code et à priori le BOM utf8 est de 3 bytes, pas 4.

Précieux, merci.

Ton code semble donc faux, pourquoi ça marche ou pas ?

OK. Je ne saurais plus dire d'où j'ai pompé ça, ça doit bien faire un an que je m'en sers. Il n'y a pas eu d'évolution, entre temps ?

Là, j'ai eu un fichier mal encodé, et il s'est avéré que c'était parce qu'il n'avait pas d'entête d'encodage. Je ne me suis pas embêté, Notepad2 m'a fait ça en moins de deux.

Après la manœuvre, dans la barre d'état, "UTF8" est devenu "UTF8 Signature", et le fichier démarre comme ça :
Nom : DébutFichier.png
Affichages : 188
Taille : 27,0 Ko

Nom : DébutFichier.png
Affichages : 188
Taille : 27,0 Ko

Sans les fichiers de tests que tu utilises pour en tirer tes conclusions, difficile de dire (ou alors tous les fichiers qui passent commencent par un '[' ).

Ça promet de ne pas être immédiat, c't'affaire.

Pour ce qui est de deviner l'encodage, je ne connais pas de solution.

Bon, je continuerai à m'en sortir comme j'ai fait aujourd'hui, alors.
Quelqu'un quelque part (cité dans le fil, directement ou indirectement) a dit de ne pas mettre des entêtes systématiquement, il va peut-être falloir que je creuse un peu ça.

**umfred** · 26/01/2023, 16h53

En fait, ton code utilisant SequenceEqual pour vérifier l'encodage, ça permet d'être OK quand c'est un encodage UTF8 avec BOM (un octet supplémentaire en tête); le SequenceEqual vérifie si il y a la séquence des octets dans les octets lus

Tu peux aussi utiliser Stream.CurrentEncoding après une 1ère lecture pour déterminer l'encodage https://learn.microsoft.com/en-us/do...g?view=net-7.0
Pour savoir si il y a le BOM, tu peux utiliser GetPreamble() et vérifier son contenu (vide si pas de BOM)

UTF 8 et son entête

C#

Vue hybride

Discussions similaires

Partager

Partager