IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Modules Perl Discussion :

[XML::PARSER] Problème d'encodage


Sujet :

Modules Perl

  1. #1
    Membre à l'essai
    Inscrit en
    Février 2005
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Février 2005
    Messages : 19
    Points : 14
    Points
    14
    Par défaut [XML::PARSER] Problème d'encodage
    Bonjour,

    je dois parser un fichier XML avec XML:ARSER. Le problème est que dès que le parseur tombe sur un caractère un peu spécial par exemple un "Ê") il me sort l'erreur suivante:

    not well-formed (invalid token) at line 6, column 30, byte 146 at /usr/local/lib/perl/5.8.4/XML/Parser.pm line 187

    Mon fichier XML est défini comme suit:
    <?xml version="1.0" encoding="UTF-8"?>

    Comment pourrais-je faire diriger mes caractères spéciaux à XML:ARSER ?

    Merci pour votre aide.

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    fais voir ton script!!!

  3. #3
    Expert confirmé
    Avatar de GLDavid
    Homme Profil pro
    Service Delivery Manager
    Inscrit en
    Janvier 2003
    Messages
    2 852
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Service Delivery Manager
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Janvier 2003
    Messages : 2 852
    Points : 4 759
    Points
    4 759
    Par défaut
    Salut

    A ta place, je mettrais tout en iso-8851-9, format le plus commun pour du XML 1.0.

    @++
    GLDavid
    Consultez la FAQ Perl ainsi que mes cours de Perl.
    N'oubliez pas les balises code ni le tag

    Je ne répond à aucune question technique par MP.

  4. #4
    Membre à l'essai
    Inscrit en
    Février 2005
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Février 2005
    Messages : 19
    Points : 14
    Points
    14
    Par défaut
    Citation Envoyé par GLDavid
    Salut

    A ta place, je mettrais tout en iso-8851-9, format le plus commun pour du XML 1.0.

    @++
    En fait, le XML m'est fourni automatiquement, je ne peux donc pas gérer directement le contenu.


  5. #5
    Expert confirmé
    Avatar de GLDavid
    Homme Profil pro
    Service Delivery Manager
    Inscrit en
    Janvier 2003
    Messages
    2 852
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Service Delivery Manager
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Janvier 2003
    Messages : 2 852
    Points : 4 759
    Points
    4 759
    Par défaut
    Ok

    Maintenant, avec l'erreur que tu as il me semble que le fichier XML que l'on te donne n'est pas bien formé : en clair, il doit y avoir des erreurs au niveau des balises ou de leur hiérarchie.
    Il va falloir plutôt que tu fasses un feed--back de cette erreur auprès de la personne qui t'a fourni ce XML.

    @++
    GLDavid
    Consultez la FAQ Perl ainsi que mes cours de Perl.
    N'oubliez pas les balises code ni le tag

    Je ne répond à aucune question technique par MP.

  6. #6
    Membre à l'essai
    Inscrit en
    Février 2005
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Février 2005
    Messages : 19
    Points : 14
    Points
    14
    Par défaut
    Citation Envoyé par GLDavid
    Ok

    Maintenant, avec l'erreur que tu as il me semble que le fichier XML que l'on te donne n'est pas bien formé : en clair, il doit y avoir des erreurs au niveau des balises ou de leur hiérarchie.
    Il va falloir plutôt que tu fasses un feed--back de cette erreur auprès de la personne qui t'a fourni ce XML.

    @++
    Je ne pense pas que ce soit un problème de fichier mal formé, ça viens des accents qui passent mals (en gros si j'enlève tous les accents contenus dans les balises, mon fichier est parsé).

    L'idée serait de pouvoir (via une commande ) tout mettre dans des CDATA ou bien d'indiquer à XML:ARSER l'encodage, et de fait qu'il digère mes données.

  7. #7
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    pourquoi ne fais tu pas une fonction qui changera la premiere ligne de ton fichier xml par le
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <?xml version="1.0" encoding="iso-8851-9"?>
    ???

  8. #8
    Expert confirmé
    Avatar de GLDavid
    Homme Profil pro
    Service Delivery Manager
    Inscrit en
    Janvier 2003
    Messages
    2 852
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Service Delivery Manager
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Janvier 2003
    Messages : 2 852
    Points : 4 759
    Points
    4 759
    Par défaut
    Citation Envoyé par djibril
    pourquoi ne fais tu pas une fonction qui changera la premiere ligne de ton fichier xml par le
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <?xml version="1.0" encoding="iso-8851-9"?>
    ???
    +1, un coup de regexp et ça repart !

    @++
    GLDavid
    Consultez la FAQ Perl ainsi que mes cours de Perl.
    N'oubliez pas les balises code ni le tag

    Je ne répond à aucune question technique par MP.

  9. #9
    Expert confirmé
    Avatar de GLDavid
    Homme Profil pro
    Service Delivery Manager
    Inscrit en
    Janvier 2003
    Messages
    2 852
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Service Delivery Manager
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Janvier 2003
    Messages : 2 852
    Points : 4 759
    Points
    4 759
    Par défaut
    Autre chose aussi, cela peut aussi venir de la localisation de ta machine. Essaies d'être compatible avec le XML.

    @++
    GLDavid
    Consultez la FAQ Perl ainsi que mes cours de Perl.
    N'oubliez pas les balises code ni le tag

    Je ne répond à aucune question technique par MP.

  10. #10
    Membre à l'essai
    Inscrit en
    Février 2005
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Février 2005
    Messages : 19
    Points : 14
    Points
    14
    Par défaut
    Merci pour vos réponses, je vais tester tout ça de suite.

  11. #11
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Tu peux aussi essayer de jouer avec le paramètre "ProtocolEncoding" dans les paramètres de "new()". De plus, j'aimerais bien savoir d'où vient le problème... Peux tu essayer d'utiliser mon snippet (le dernier code dans le Topic Snippet en haut du forum) pour vérifier si ton XML est bien en UTF-8 ou si la déclaration d'encoding est tout simplement mauvaise ? Il te signalera s'il y a un problème et n'effectuera pas la transformation, donc tu ne risque rien.

    --
    Jedaï

  12. #12
    Membre à l'essai
    Inscrit en
    Février 2005
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Février 2005
    Messages : 19
    Points : 14
    Points
    14
    Par défaut
    Voilà ce qui se passe quand je transforme la première ligne en iso-8851-9:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    Couldn't open encmap iso-8851-9.enc:
    Aucun fichier ou répertoire de ce type
     at /usr/local/lib/perl/5.8.4/XML/Parser.pm line 187
    Visiblement, le fichier de configuration de XML:ARSER pour ce format n'existe pas. Humm, dans l'instanciation de mon objet XML:ARSER, ne puis-je pas indiquer l'encodage (pour faire passer mon UTF-8)?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    my $parser  = XML::Parser->new('Style' => 'Subs',
                                   'Handlers' => {'Char' => \&char_handler});
    ou dans mon char_handler:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    # conteneur remplissant la tableau "data"
    sub char_handler {
       my ($parser, $text) = @_;
       return unless $text && $text =~ /\w/;
       $data{$current_tag} .= $text;
    };
    merchi

  13. #13
    Membre à l'essai
    Inscrit en
    Février 2005
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Février 2005
    Messages : 19
    Points : 14
    Points
    14
    Par défaut
    Citation Envoyé par Jedai
    Tu peux aussi essayer de jouer avec le paramètre "ProtocolEncoding" dans les paramètres de "new()". De plus, j'aimerais bien savoir d'où vient le problème... Peux tu essayer d'utiliser mon snippet (le dernier code dans le Topic Snippet en haut du forum) pour vérifier si ton XML est bien en UTF-8 ou si la déclaration d'encoding est tout simplement mauvaise ? Il te signalera s'il y a un problème et n'effectuera pas la transformation, donc tu ne risque rien.

    --
    Jedaï
    Merci je vais voir

  14. #14
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    ISO-8859-1 plutôt que iso-8851-9 ...

    Et utilise plutôt le paramètre "ProtocolEncoding", c'est plus propre que la regex je pense, quitte à modifier cette ligne une fois qu'on sera sûr qu'il s'agit d'une erreur.

    --
    Jedaï

Discussions similaires

  1. [XML] [XSLT] Problème d'encodage des accents
    Par missllyss dans le forum XSL/XSLT/XPATH
    Réponses: 9
    Dernier message: 12/06/2008, 16h01
  2. Générer fixhier xml chinois, problème d'encodage
    Par mat10000 dans le forum Langage
    Réponses: 1
    Dernier message: 21/10/2007, 19h49
  3. [XML] problème d'encodage caractère €
    Par #CR-7 dans le forum XML/XSL et SOAP
    Réponses: 4
    Dernier message: 11/01/2007, 10h45
  4. [XML][Flash] Problème d'encodage des accents
    Par JoN28fr dans le forum Flash
    Réponses: 20
    Dernier message: 11/10/2006, 21h16
  5. [XML][Flash] Problème d'encodage des accents
    Par JoN28fr dans le forum XML/XSL et SOAP
    Réponses: 9
    Dernier message: 06/10/2006, 16h45

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo