IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

encodage utf8 fichier sortie


Sujet :

Langage Perl

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut encodage utf8 fichier sortie
    Bonjour,

    jai un fichier texte qui une fois ouvert avec notepad est reconnu comme de lutf8. Dans ce fichier pas de soucis avec les caracteres ils sont bien reconnu.

    jai cree un traitement perl pour extraire des donnees et je les reecris dans un fichier de sortie.
    le soucis est que ce fichier presente des soucis dencodage puisque les caractere ne sont plus reconnu.

    voici le script ou jai ajouter une option mais toujours rien :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    #!/usr/bin/perl
    open(dico, "texteIn.txt");
    open(npc,'>:utf8',">textOut.txt");
     
    while (<dico>){
    if (/(([A-Z])+([a-zéèàüäêçïíáó])* (([A-Z])+([a-zéèàüäêçïíáó])* )*(([A-Z])+([a-zéèàüäêçïíáó])*)+)/) {
    print npc "$1\n";}
     
    }
    close(npc);
    close(dico);
    merci de votre aide

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    #!/usr/bin/perl
    open(DICO, '<', "texteIn.txt");
    open(NPC,'>:utf8', "textOut.txt");
     
    while (<DICO>){
    if (/(([A-Z])+([a-zéèàüäêçïíáó])* (([A-Z])+([a-zéèàüäêçïíáó])* )*(([A-Z])+([a-zéèàüäêçïíáó])*)+)/) {
    print NPC"$1\n";}
     
    }
    close(NPC);
    close(DICO);

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Citation Envoyé par djibril Voir le message
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    #!/usr/bin/perl
    open(DICO, '<', "texteIn.txt");
    open(NPC,'>:utf8', "textOut.txt");
     
    while (<DICO>){
    if (/(([A-Z])+([a-zéèàüäêçïíáó])* (([A-Z])+([a-zéèàüäêçïíáó])* )*(([A-Z])+([a-zéèàüäêçïíáó])*)+)/) {
    print NPC"$1\n";}
     
    }
    close(NPC);
    close(DICO);
    sa ne fonctionne toujours pas
    je me demande si ce nest pas mon fichier de base qui pose probleme...

  4. #4
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Peut-être est-ce du au fait que ton encodage initial est de l'ASCII étendu.
    As-tu la possibilité de dumper le fichier texte (od -t x1 fichier.txt) afin de voir comment sont codés les caractères accentués ? (ou d'utiliser la commande unix file, si elle fonctionne sur ta plateforme ; malheureusement, sous cygwin, je n'ai pas réussi à la faire marcher).
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

  5. #5
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Citation Envoyé par Philou67430 Voir le message
    Peut-être est-ce du au fait que ton encodage initial est de l'ASCII étendu.
    As-tu la possibilité de dumper le fichier texte (od -t x1 fichier.txt) afin de voir comment sont codés les caractères accentués ? (ou d'utiliser la commande unix file, si elle fonctionne sur ta plateforme ; malheureusement, sous cygwin, je n'ai pas réussi à la faire marcher).
    jai egalement cygwin et pas de machine unix sous la main pr le moment
    en attendant voila un exemple dans le fichier sortie :

  6. #6
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    voici le code héxa pour le "é"


  7. #7
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    C'est pareil chez moi, mais ce n'est pas équivalent au fichier d'entrée que j'ai créé, qui lui contient un caractère é égal à 0xE9 (ASCII étendu).

    Regarde donc avec ton fichier d'entrée quel format il a.

    Au delà, je ne saurais pas t'aider plus. Il faudrait que tu fournisses en pièce jointe un bout du fichier d'entrée pour que quelqu'un puisse déterminer le type d'encodage.
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

  8. #8
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Citation Envoyé par Philou67430 Voir le message
    C'est pareil chez moi, mais ce n'est pas équivalent au fichier d'entrée que j'ai créé, qui lui contient un caractère é égal à 0xE9 (ASCII étendu).

    Regarde donc avec ton fichier d'entrée quel format il a.

    Au delà, je ne saurais pas t'aider plus. Il faudrait que tu fournisses en pièce jointe un bout du fichier d'entrée pour que quelqu'un puisse déterminer le type d'encodage.
    mon fichier dentréé contient ce é avec la notation hexa ci dessus.

    jai mis lensemble du fichier sur cette adresse :
    http://home.etu.unige.ch/~nebhi/europarl-v5.fr-en.en-ai

    merci

  9. #9
    Membre émérite
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Points : 2 890
    Points
    2 890
    Par défaut
    Isler Béguin
    Ca c'est de l'UTF-8 interprété comme de l'ANSI. Le fautif ici n'est pas le fichier mais le programme qui affiche son contenu.

    A ce propos, ton fichier d'entrée contient 3 octets de BOM au début, à savoir en hexadécimal ef bb ff.
    Voir wikipedia: http://fr.wikipedia.org/wiki/Marque_...dre_des_octets pour des explications à propos du BOM. A noter que notepad l'utilise le BOM en UTF-8 (bien que ce ne soit généralement pas recommandé)

    Je crois que ton script Perl filtre le BOM et n'en met pas dans le fichier de sortie, de sorte qu'un outil comme notepad ne détectera pas que le fichier est en UTF-8 si ça ne lui est pas indiqué explicitement. D'autres éditeurs de texte sont plus efficaces pour auto-détecter l'UTF-8 avec ou sans BOM.

  10. #10
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Merci pour l'info. en effet jai pu travailler avec textWrangler SOUS mac os et pas de soucis...

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Free Pascal] Encodage de fichier en sortie
    Par joreveur dans le forum Free Pascal
    Réponses: 5
    Dernier message: 12/11/2014, 10h40
  2. [9.0] Erreur encodage utf8 lors d'importation fichier csv
    Par aurelie.guegan.15 dans le forum PostgreSQL
    Réponses: 4
    Dernier message: 17/07/2014, 16h36
  3. Encodage des fichiers utf8 et ftp
    Par gtraxx dans le forum NetBeans
    Réponses: 8
    Dernier message: 01/12/2010, 11h13
  4. [SQLCMD] Encodage et fichiers de sortie
    Par Invité dans le forum Outils
    Réponses: 11
    Dernier message: 09/07/2010, 09h19
  5. Réponses: 0
    Dernier message: 19/01/2010, 19h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo