Comment connaître l'encodage d'un stream provenant d'un FTP ?

**navyg** · 15/01/2023, 16h46

Bonjour à tous,

Je galère depuis un moment sur un sujet qui doit être tout bête, même après avoir lu pas mal de chose sur le sujet.
Je charge un flux sur un ftp avec Indy, tel qu'il m'a été conseillé précédemment pour le multiplateforme.
Je charge ensuite ce flux dans un stringlist pour le traiter, ce qui ne me pose pas de problème.
J'ai même trouvé comment transformer un string UTF8 en ANSI.
Le problème c'est que je ne sais pas à l'avance si le fichier qui est sur le ftp est en ANSI ou en UTF8 (en tout cas pas d'unicode ... c'est déjà ça)
Donc si c'est un flux en UTF8 et que je le convertis en ANSI tout va bien, mais si c'est un flux en ANSI et que je le convertis en ANSI à nouveau ça va pas !

La seule information qui me manque c'est comment savoir si le TStringStream que je charge depuis le ftp est en UTF8 ou en ANSI ?
Je n'ai pas trouvé la fonction magique qui me donnerait cette information me permettant de discriminer le traitement à effectuer.
J'ai cherché dans le TEncoding du TStringStream, mais je n'ai rien trouvé de différent que je charge un fichier UTF8 ou un fichier ANSI ... j'ai dû mal chercher, ou alors ça se trouve ailleurs ?

Merci d'avance et bien cordialement.

**pprem** · 15/01/2023, 17h46

Le seul truc qui distingue des fichiers ANSI/UTF-8 est la présence du BOM comme premier caractère ou son absence.

si ce caractère est à, c'est de l'UTF-8.
S'il n'y est pas, il faut vérifier s'il y a des trucs chelous dans le fichier avant de considérer que c'est de l'ANSI car certains fichiers UTF-8 sont enregistrés sans BOM.

Pas de fonction miracle pour ça malheureusement.

**navyg** · 15/01/2023, 18h00

Merci pour cette réponse qui confirme mes craintes.
Visiblement les fichiers en UTF8 que je dois traiter n'ont pas de BOM en début de fichier, pas de signature ...
Ce qui me rassure c'est que j'ai compris, mais que les fichiers à traiter n'ont pas le discriminant désiré ... je ne sais pas comment font les logiciels pour comme notepad pour détecter que c'est de l'utf8 et pas de l'ANSI ?
En fait, sur la vue en hexa, ce sont essentiellement les caractères accentués qui sont codés sur deux octets en UTF8 et 1 octet en ANSI.

Je vais essayer de travailler là-dessus, mais je ne connais pas à l'avance le contenu du fichier ... :o(
Il va falloir développer de l'intelligence artificielle ?

**tourlourou** · 15/01/2023, 18h31

Bonjour,
D'après ce que j'ai lu, si c'est soit ANSI, soit UTF-8, c'est ANSI si tu trouves un caractère invalide en UTF-8...

**navyg** · 15/01/2023, 18h37

Oui merci c'est ce que je suis en train de faire.
J'ai remarqué que tout les caractères accentués étaient codés sur 2 octets qui commencent par C3
Je vais me baser là-dessus je crois...
je vous tiens au courant ...

EDIT : Bon ça marche très bien en détectant $C3 dans les fichiers UTF8, et s'il n'y en a pas ça veut dire qu'il n'y a pas de caractères accentués et dans ce cas là UTF8 = ANSI
Donc pour l'instant je vais en rester là

Merci à vous

**foetus** · 15/01/2023, 22h04

Envoyé par navyg

J'ai remarqué que tout les caractères accentués étaient codés sur 2 octets qui commencent par C3

je pense que la meilleure approche est :

Premièrement, il faut tester si ton caractère est supérieur strictement à 127 (0x7F).
La table ASCII n'utilise que 127 caractères (7 bits sur 1 octet) et l'UTF-8 utilise cette caractéristique pour être compatible ASCII.

Deuxièmement, si tu trouves 1 caractère non ASCII, tester si c'est 1 caractère UTF-8 valide (regarde la page wikipedia postée par @tourlourou)
Là c'est 1 gros problème de l'UTF-8 notamment pour les bases de données : ce n'est pas 1 encodage fixe.
Il faut :

prendre 1 octet, tester s'il commence par 0x6 (sur 3 bits), 0xE (sur 4 bits) ou 0x1E (sur 5 bits et le 6ième bit soit 1 soit 0)
extraire le codepoint avec les octets suivants - tester leur validité, commence par 0x2 sur 2 bits
valider le codepoint avec la plage des valeurs

peut-être qu'1 bibliothèque peut le faire pour toi.

**navyg** · 15/01/2023, 19h47

Envoyé par pprem

Le seul truc qui distingue des fichiers ANSI/UTF-8 est la présence du BOM comme premier caractère ou son absence.

si ce caractère est à, c'est de l'UTF-8.
S'il n'y est pas, il faut vérifier s'il y a des trucs chelous dans le fichier avant de considérer que c'est de l'ANSI car certains fichiers UTF-8 sont enregistrés sans BOM.

Pas de fonction miracle pour ça malheureusement.

au fait tu voulais indiquer quelque chose après si ce caractère est à ?

Comment connaître l'encodage d'un stream provenant d'un FTP ?

Web & réseau Delphi

Vue hybride

Discussions similaires

Partager

Partager