IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Lecture d'un fichier windows en UTF-16LE


Sujet :

C++

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    32
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2005
    Messages : 32
    Points : 53
    Points
    53
    Par défaut Lecture d'un fichier windows en UTF-16LE
    Bonjour messieurs. Je traine ici depuis quelques années (sans poster), mais je n'avais jamais eut de gros soucis jusqu'à maintenant.

    J'ai épluché cet après midi le forum et le net mais j'ai pas trouvé de solution à mon problème.

    Ca m'énerve parce que c'est un truc bateau, bref....

    Je dois parser le fichier log du planificateur de tache (SchedLgU.txt) pour remonter automatiquement les erreurs.
    Comme j'ai l'habitude de bosser sous UNIX, j'ai basé tout mon programme sur de l'UTF8, et donc avec cet encodage, un bon vieux getline + découpage de string ca passait très bien.

    Sauf que forcément le fichier il est en UTF-16LE et le getline il me renvoie pas des strings exploitables.
    Sur le net j'ai vu que ca parlait de wstring tout ça mais :
    1/ je connais pas du tout le fonctionnement
    2/ je ne vais pas forcément assurer la maintenance, et donc faut que je reste dans le plus standard possible

    Du coup je suis un peu coincer.

    J'avais penser faire un iconv du fichier pour le basculer en UTF8, mais libconv n'a pas marché.
    Du coup j'ai pensé lire le fichier et convertir en UTF8 les string à la volée mais j'ai fait chou blanc aussi.

    Si quelqu'un a une piste, idée etc... je suis preneur

  2. #2
    Expert éminent sénior
    Avatar de koala01
    Homme Profil pro
    aucun
    Inscrit en
    Octobre 2004
    Messages
    11 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : Belgique

    Informations professionnelles :
    Activité : aucun

    Informations forums :
    Inscription : Octobre 2004
    Messages : 11 612
    Points : 30 612
    Points
    30 612
    Par défaut
    Salut,

    En fait, c'est tout simple : w*sream et wstring fonctionnent exactement de la meme manière que *stream et string, l'encodage étant simplement différent .

    Tu peux aussi forcer à l'utilisation d'un jeu de caractères différents (car il me semble que UTF-16 est d'office codé sur 2 bytes) en utilisant les templates qui sont à la base des *stream et *string : basic_*stream et basic_string
    A méditer: La solution la plus simple est toujours la moins compliquée
    Ce qui se conçoit bien s'énonce clairement, et les mots pour le dire vous viennent aisément. Nicolas Boileau
    Compiler Gcc sous windows avec MinGW
    Coder efficacement en C++ : dans les bacs le 17 février 2014
    mon tout nouveau blog

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    32
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2005
    Messages : 32
    Points : 53
    Points
    53
    Par défaut
    Re,

    j'ai essayé plein de trucs avec les wstring tout ça, des utf16totuf8, les narrow et widen du site. Même quelques trucs trouvé sur le net avec des multibyte machin.

    Et finalement j'ai trouvé une solution en codant comme un porc. J'en suis pas fier mais ça marche.

    Ma technique (pourrie) c'est de lire le fichier avec un getline que je colle dans une string normale. Seulement c'est pas une vraie string exploitable j'ai essayé le wstring).

    Du coup je lui file quelques caractères interdits, genre -1,-2 qui sont les 1ers cars du fichier, je vire les (int)str[i]==0 aussi et zou on colle ca dans une string.

    Du coup mon "C O U C O U" devient COUCOU et hop je bosse avec cette string là ^^
    Ca marche même avec les caractères accentués.

    J'arrive pas à comprendre ni pourquoi ni comment ca peut bien marche, mais ça résoud mon problème et c'est bien là l'essentiel.


    Merci pour ta réponse koala01 au fait

  4. #4
    Membre expert
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    1 415
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mars 2007
    Messages : 1 415
    Points : 3 156
    Points
    3 156
    Par défaut
    Salut

    Citation Envoyé par stephanerain Voir le message
    J'arrive pas à comprendre ni pourquoi ni comment ca peut bien marche, mais ça résoud mon problème et c'est bien là l'essentiel.
    Pour une raison simple, c'est que l'encodage en UTF8 des caractères ISO est le même que celui d'ISO, pour conserver un semblant de compatibilité quand ça merdouille. Je simplifie (c'est sans aucun doute nettement plus complexe que ça), mais ça résume.

    y aurais moyen que tu nous postes le fichier pour qu'on joue un peu avec ?
    Find me on github

  5. #5
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    32
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2005
    Messages : 32
    Points : 53
    Points
    53
    Par défaut
    Pas de souci, voici le fichier en question (c'est le log du planificateur de tache)
    Fichiers attachés Fichiers attachés

  6. #6
    Expert éminent sénior
    Avatar de Mat.M
    Profil pro
    Développeur informatique
    Inscrit en
    Novembre 2006
    Messages
    8 360
    Détails du profil
    Informations personnelles :
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Novembre 2006
    Messages : 8 360
    Points : 20 377
    Points
    20 377
    Par défaut
    Citation Envoyé par stephanerain Voir le message
    Du coup je lui file quelques caractères interdits, genre -1,-2 qui sont les 1ers cars du fichier, je vire les (int)str[i]==0 aussi et zou on colle ca dans une string.
    mauvaise méthode : si tu lis des charactères japonais ou arabes par exemple je doute fortement que cela fonctionne..
    il faut utiliser des API comme Multibyte...

Discussions similaires

  1. Lecture de fichier windows et Unix (CR/LF)
    Par Ange_blond dans le forum SL & STL
    Réponses: 19
    Dernier message: 13/10/2010, 09h54
  2. probleme windows form, lecture dans un fichier texte
    Par fbarbin dans le forum Windows Forms
    Réponses: 2
    Dernier message: 08/09/2008, 14h06
  3. [IO] : Pb de lecture d'un fichier au format UTF-8.
    Par Foub dans le forum Entrée/Sortie
    Réponses: 3
    Dernier message: 25/03/2008, 12h33
  4. Lecture/écriture de fichiers UTF 16 LE
    Par Pill_S dans le forum Delphi
    Réponses: 8
    Dernier message: 19/12/2006, 18h08
  5. Lecture d'un fichier texte en UTF-8
    Par EL0807 dans le forum Access
    Réponses: 2
    Dernier message: 07/08/2006, 22h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo