IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C Discussion :

BOM et unicode


Sujet :

C

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre chevronné
    Profil pro
    Inscrit en
    Février 2008
    Messages
    439
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 439
    Par défaut BOM et unicode
    Citation Envoyé par mchk0123 Voir le message
    Surement de l'UTF8, c'est le plus répandu et le plus utilisé.
    Il me semblait que sous Windows UTF-16 était pas mal utilisé aussi.

    Et que l'UTF-8 sous Windows est souvent un UTF-8 spécial avec un "BOM" au début.

    Citation Envoyé par mchk0123 Voir le message
    Et vu que le fichier texte est en clair
    C'est à dire?

  2. #2
    Rédacteur
    Avatar de Vincent Rogier
    Profil pro
    Inscrit en
    Juillet 2007
    Messages
    2 373
    Détails du profil
    Informations personnelles :
    Âge : 47
    Localisation : France

    Informations forums :
    Inscription : Juillet 2007
    Messages : 2 373
    Par défaut
    Citation Envoyé par corrector Voir le message
    Il me semblait que sous Windows UTF-16 était pas mal utilisé aussi.
    Windows NT gère les string nativement en UTF16... mis cela n'a rien a voir avec la facon d'enregistrer un fichier car ce sont les applications qui écrivent les fichiers et donc décident de l'encodage.

    Citation Envoyé par corrector Voir le message
    Et que l'UTF-8 sous Windows est souvent un UTF-8 spécial avec un "BOM" au début.
    Non ! le BOM n'a rien a voir avec Windows directement. Ce sont les applis encore une fois qui décident d'incorporer un BOM... Ce que fait par exemple par défaut notepad sous vista si l'encodage n'est pas ANSI... et ce qu'il ne faisait pas avant...
    Vincent Rogier.

    Rubrique ORACLE : Accueil - Forum - Tutoriels - FAQ - Livres - Blog

    Vous voulez contribuer à la rubrique Oracle ? Contactez la rubrique !

    OCILIB (C Driver for Oracle)

    Librairie C Open Source multi-plateformes pour accéder et manipuler des bases de données Oracle

  3. #3
    Expert éminent
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 395
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 395
    Par défaut
    Sauf que l'extension Microsoft que j'ai donnée (ccs=UNICODE dans fopen()) a besoin de la BOM pour savoir, sauf si on met une info plus précise dans le ccs=).

    Le problème du "Bush hid the facts" n'arrive jamais dans un texte contenant une BOM: Le problème, c'est justement que notepad prend le texte normal pour de l'unicode sans BOM, car beaucoup d'applications ne la mettent pas (pour certaines raisons, la BOM est même déconseillée en UTF-8 sous nux).
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

  4. #4
    Membre chevronné
    Profil pro
    Inscrit en
    Février 2008
    Messages
    439
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 439
    Par défaut
    Citation Envoyé par Médinoc Voir le message
    Le problème, c'est justement que notepad prend le texte normal pour de l'unicode sans BOM, car beaucoup d'applications ne la mettent pas (pour certaines raisons, la BOM est même déconseillée en UTF-8 sous nux).
    Justement, par définition, je ne vois pas comment on peut mettre un BOM en UTF-8. Tout ce qu'on peut faire, c'est mettre un ZWNBSP au début du fichier.

  5. #5
    Expert éminent
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 395
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 395
    Par défaut
    Citation Envoyé par corrector Voir le message
    Justement, par définition, je ne vois pas comment on peut mettre un BOM en UTF-8. Tout ce qu'on peut faire, c'est mettre un ZWNBSP au début du fichier.
    Ben oui, c'est peut-être un abus de langage, mais on même en UTF-8, on appelle ça une BOM, même si en UTF-8 les bytes sont par définition toujours dans le même ordre.
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

  6. #6
    Membre chevronné
    Profil pro
    Inscrit en
    Février 2008
    Messages
    439
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 439
    Par défaut
    Citation Envoyé par Médinoc Voir le message
    Ben oui, c'est peut-être un abus de langage, mais on même en UTF-8, on appelle ça une BOM, même si en UTF-8 les bytes sont par définition toujours dans le même ordre.
    La question n'est pas si on a besoin de connaitre l'ordre des octets ou pas. Ce n'est pas un problème de besoins, mais de définitions.

    En UTF16, il y a un BOM, par définition.

    En UTF16LE, il n'y en a pas, par définition.

    Si un fichier est en UTF16, mais que tu l'as écrit toi même et que tu sais pertinemment comment tu l'as écrit (mettons, en little-endian), il n'est pas de l'UTF16LE pour autant. C'est toujours de l'UTF16, et il y a un BOM, qu'on en ai besoin ou pas.

    En UTF8 il n'y a pas de BOM, pas parce qu'on en pas besoin, mais par définition.

    Dire qu'il y a un BOM en UTF8 n'est pas un "abus de langage", c'est tout simplement une contradiction.

Discussions similaires

  1. [2K5] BULK INSERT / BCP / Unicode / BOM / UTF-16
    Par mioux dans le forum MS SQL Server
    Réponses: 3
    Dernier message: 20/11/2009, 15h11
  2. [XHTML] Problème de Unicode Byte-Order Mark (BOM) in UTF-8 (?)
    Par gb-ch dans le forum Balisage (X)HTML et validation W3C
    Réponses: 2
    Dernier message: 13/02/2007, 02h01
  3. [Unicode] Internationalisation d'une application
    Par Thierry Laborde dans le forum Langage
    Réponses: 4
    Dernier message: 21/10/2003, 20h15
  4. conversion Unicode -> ASCII
    Par juzam dans le forum C
    Réponses: 8
    Dernier message: 24/07/2003, 10h07
  5. [debutant] unicode
    Par dadou91 dans le forum XML/XSL et SOAP
    Réponses: 7
    Dernier message: 23/05/2003, 10h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo