IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Modules Perl Discussion :

transformation fichier xml en plusieurs en perl


Sujet :

Modules Perl

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut transformation fichier xml en plusieurs en perl
    Bonjour,

    Bonjour,

    J'ai un fichier xml qui se présente globalement sous cette forme :

    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    <xml>
    <header> <!-- information header--></header>
     
    <text>
    <body>
    <div type="part">
    <div type="article>
    <!-- CONTENU -->
    </div>
    <div type="article>
    <!-- CONTENU -->
    </div>
    </div>
    <div type="part">
    <div type="article>
    <!-- CONTENU -->
    </div>
    <div type="article>
    </div>
    </div>
     
    </body>
     
    </text>
     
    </xml>


    J'ai un fichier xml qui se compose de plusieurs <div type="part"> qui elle-même comportent plusieurs <div type="article>.

    Ma question est de savoir comment je peux transformer ce fichier xml pour avoir un fichier pour chaque <div type="article> mais en reprenant le même header.
    Exemple j'aurai plusieurs fichiers de ce type :

    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    <xml>
    <header><!-- information header --> </header>
     
    <text>
    <body>
     
    <div type="article">
    <!-- contenu -->
    </div>
    </body>
     
    </text>
    </xml>


    Au final je souhaite obtenir autant de fichiers xml que j'ai de <div type="article> tout en gardant le même header.

    Je recherche donc la méthode en perl pour effectuer cette manipulation.

    J'espère que c'est clair merci

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    Utilise le module XML::Twig pour parser ton fichier xml et XML::Writer pour en créer à volonté.

    http://www.developpez.net/forums/d78...documents-xml/

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Citation Envoyé par djibril Voir le message
    Utilise le module XML::Twig pour parser ton fichier xml et XML::Writer pour en créer à volonté.

    http://www.developpez.net/forums/d78...documents-xml/
    je vais y jeter un oeil merci

  4. #4
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Je me suis documenté et j'avoue ne pas tout comprendre sur les modules ne trouvant pas vraiment de documentation facilement compréhensible.

    Si quelqu'un pouvait me donner un coup de pouce pour commencer...

  5. #5
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Citation Envoyé par knebhi Voir le message
    Je me suis documenté et j'avoue ne pas tout comprendre sur les modules ne trouvant pas vraiment de documentation facilement compréhensible.

    Si quelqu'un pouvait me donner un coup de pouce pour commencer...
    Le message pointé par Djibril contient un lien vers un excellent tutorial pour XML::Twig.

    --
    Jedaï

  6. #6
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    j'ai lu le tuto de xml:twig et j'ai pondu un début de programme
    je cherche en fait a parser tout les <div type="article">
    la structure est du fichier xml est détaillé sur le premier post.

    ce programme m'affiche l'ensemble du texte mais je souhaite juste avoir le texte des <div type="article">

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    #!/bin/perl -w
     
    use strict;
    use XML::Twig;
     
     
    my $twig= new XML::Twig();                              # create the twig
     
    if( my $file= $ARGV[0]) { $twig->parsefile( $file); }   # build it
    else                    { $twig->parse( \*STDIN);   }
     
    my $module_list= $twig->root;                           # grab the root
    my @modules= $module_list->children;                    # get its children
     
     
     
    foreach my $module ( @modules)
      { 
    	my $e_div = $module->first_child('div');
    	my $div = $module->text;
     
     
    	print $div;
     
      }

  7. #7
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    t'en es ou dans ton souci ? Ce serait bien que tu nous mettes un fichier xml propre.
    C'est vraiment la dernière fois qu'on vous le répétera. Si vous voulez de l'aide, donnez nous des informations correcte, c'est désagréable de devoir corriger votre xml pour pouvoir le tester.

    Un xml plus propre est :

    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    <xml>
      <header> <!-- information header--></header>
      <text>
        <body>
          <div type="part">
            <div type="article">
            <!-- CONTENU -->
          </div>
            <div type="article">
            <!-- CONTENU -->
          </div>
          </div>
          <div type="part">
            <div type="article">
              <!-- CONTENU -->
            </div>
            <div type="article">
              <!-- CONTENU -->
            </div>
          </div>
        </body>
      </text>
    </xml>

  8. #8
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Ce n'est pas intentionnel de ma part.

    Je souhaite récuperer tout les div type="article dans un premier temps mais je n'y arrive pas.

  9. #9
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    cadeau,

    test.xml
    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    <xml>
      <header> <!-- information header--></header>
      <text>
        <body>
          <div type="part">
            <div type="article">
            <!-- toto -->
          </div>
            <div type="article">
            <!-- tutu -->
          </div>
          </div>
          <div type="part">
            <div type="article">
              <!-- titi -->
            </div>
            <div type="article">
              <!-- popo -->
            </div>
          </div>
        </body>
      </text>
    </xml>

    test.pl
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    #!/usr/bin/perl
     
    use warnings;
    use strict;
    use XML::Twig;
    use File::Temp;
     
    my $i = 1;
    my %twig_handler = ( "div" => \&ParsingDiv, );    # Parser les <div ...>
    my $twig = new XML::Twig( TwigHandlers => \%twig_handler, );
    $twig->parsefile("test.xml");
     
    sub ParsingDiv {
        my ( $twig, $BaliseDiv ) = @_;
     
        my $DivType = $BaliseDiv->{"att"}->{"type"};
     
        if ( $DivType eq "article" ) {
            my $Articlefile = "article$i" . ".xml";
            open( my $fh, '>', $Articlefile ) or die("souci $Articlefile $!\n");
            print {$fh} "<xml>";
            my $HeaderBalise = $twig->root->first_child("header");
            $HeaderBalise->print($fh);
            print {$fh} "<text><body>";
     
            $BaliseDiv->print($fh);
     
            print {$fh} "</body></text></xml>";
            close($fh);
     
            PrettyPrintXml($Articlefile);
            $i++;
        }
    }
     
    #================================================
    # reindet un fichier XML
    # require XML::Twig, File::Temp
    #================================================
    sub PrettyPrintXml {
        my ($XMLFile) = @_;
     
        # Temp file
        my ( $FhTemp, $TempFile )
            = File::Temp::tempfile( UNLINK => 1, SUFFIX => ".xml", );
     
        my $Twig = new XML::Twig( PrettyPrint => "indented", );
        $Twig->parsefile($XMLFile);
        $Twig->print($FhTemp);
        close($FhTemp);
        $Twig->purge;
     
        # Copy temp to file
        rename( $TempFile, $XMLFile );
     
        return;
    }

  10. #10
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    ça fonctionne bien sur l'exemple fournit.
    je dois opérer quelque rectification et je vais méditer sur le code

    merci

  11. #11
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    Citation Envoyé par djibril Voir le message
    t'en es ou dans ton souci ? Ce serait bien que tu nous mettes un fichier xml propre.
    C'est vraiment la dernière fois qu'on vous le répétera. Si vous voulez de l'aide, donnez nous des informations correcte, c'est désagréable de devoir corriger votre xml pour pouvoir le tester.
    pourrai tu me dire comment mettre en forme un xml sur le forum?
    quels sont les balises ?

    merci

  12. #12
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    [ CODE=xml]Mon code XML[/CODE]

  13. #13
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    le code perl précedemment vu fonctionne bien j'y ai ajouté la prise en compte de l'utf-8

    j'ai une autre problématique à gérer j'ai un nouvel identifiant afin de distinguer les <div type="part">
    ex: <div type="part" subtype="BAR">

    je voudrai découper de la même façon les <div type="article"> mais en gardant pour chaque article les informations correspondant a cette balise <div type="part" subtype="BAR">

    exemple de résultat :

    article1.xml
    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    <xml>
      <header> <!-- information header--></header>
      <text>
        <body>
          <div type="part" subtype="BAR">
            <div type="article">
            <!-- toto -->
          </div>
     </div>
     </body>
      </text>
    </xml>

    j'ai pensé à un tableau associatif mais c'est encore flou

    retour sur les fichiers complets de base :

    test.xml
    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    <xml>
      <header> <!-- information header--></header>
      <text>
        <body>
          <div type="part" subtype="BAR">
            <div type="article">
            <!-- toto -->
          </div>
            <div type="article">
            <!-- tutu -->
          </div>
          </div>
          <div type="part"subtype="CHA">
            <div type="article">
              <!-- titi -->
            </div>
            <div type="article">
              <!-- popo -->
            </div>
          </div>
        </body>
      </text>
    </xml>
    test.pl
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    #!/usr/bin/perl
     
    use warnings;
    use strict;
    #use utf8; 
    use XML::Twig;
    use File::Temp;
     
    my $i = 1;
    my %twig_handler = ( "div" => \&ParsingDiv, );    # Parser les <div ...>
    my $twig = new XML::Twig( TwigHandlers => \%twig_handler, );
    $twig->parsefile("estrep.xml");
     
    sub ParsingDiv {
        my ( $twig, $BaliseDiv ) = @_; ## stocke les div parsé
     
        my $DivType = $BaliseDiv->{"att"}->{"type"}; ## on spécifie les div concernés (ici div type="")
     
     
     
     
     ##on ne parse que les div article
        if($divType eq "part"){
    	if ( $DivType eq "article" ) {
    		# on va nommé les fichiers xml écrits
            my $Articlefile = "article$i" . ".xml";
            ##on ouvre les fichiers concernés en écriture
    		open( my $fh, '>:encoding(UTF-8)', $Articlefile ) or die("souci $Articlefile $!\n");
    		##impression élément du xml
            print {$fh} "<?xml version=\"1.0\" encoding=\"UTF-8\"?>"."\n";
    		print {$fh} "<TEI xmlns=\"http://www.tei-c.org/ns/1.0\">";
            my $HeaderBalise = $twig->root->first_child("teiHeader");
            $HeaderBalise->print($fh);
            print {$fh} "<text><body>";
     
            $BaliseDiv->print($fh);
     
            print {$fh} "</body></text></TEI>";
            close($fh);
     
    		##on indente correctement le fichier en appelant le PrettyPrintXml
            PrettyPrintXml($Articlefile);
            $i++;
        }
    	}
     
     
    }
     
    #================================================
    # reindet un fichier XML
    # require XML::Twig, File::Temp
    #================================================
    sub PrettyPrintXml {
        my ($XMLFile) = @_;
     
        # Temp file
        my ( $FhTemp, $TempFile )
            = File::Temp::tempfile( UNLINK => 1, SUFFIX => ".xml", );
     
        my $Twig = new XML::Twig( PrettyPrint => "indented", );
        $Twig->parsefile($XMLFile);
        $Twig->print($FhTemp);
        close($FhTemp);
        $Twig->purge;
     
        # Copy temp to file
        rename( $TempFile, $XMLFile );
     
        return;
    }

  14. #14
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    estrep.xml
    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    <xml>
      <teiHeader> <!-- information header--></teiHeader>
      <text>
        <body>
          <div type="part" subtype="BAR">
            <div type="article">
              <!-- toto -->
            </div>
            <div type="article">
              <!-- tutu -->
            </div>
          </div>
          <div type="part" subtype="CHA">
            <div type="article">
              <!-- titi -->
            </div>
            <div type="article">
              <!-- popo -->
            </div>
          </div>
        </body>
      </text>
    </xml>

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    #!/usr/bin/perl
    use warnings;
    use strict;
    use XML::Twig;
    use File::Temp;
     
    my $i = 1;
    my %twig_handler = ( "div" => \&ParsingDiv, );    # Parser les <div ...>
    my $twig = new XML::Twig( TwigHandlers => \%twig_handler, );
    $twig->parsefile("estrep.xml");
     
    sub ParsingDiv {
        my ( $twig, $BaliseDiv ) = @_;    ## stocke les div parsé
     
        ## on spécifie les div concernés (ici div type="")
        my $DivType = $BaliseDiv->{"att"}->{"type"};    
     
        ##on ne parse que les div article
        if ( $DivType eq "article" ) {
            # div parent
            my $DivParent = $BaliseDiv->parent('div');
     
            # on va nommé les fichiers xml écrits
            my $Articlefile = "article$i" . ".xml";
            ##on ouvre les fichiers concernés en écriture
            open( my $fh, '>:encoding(UTF-8)', $Articlefile )
                or die("souci $Articlefile $!\n");
            ##impression élément du xml
            print {$fh} "<?xml version=\"1.0\" encoding=\"UTF-8\"?>" . "\n";
            print {$fh} "<TEI xmlns=\"http://www.tei-c.org/ns/1.0\">";
            my $HeaderBalise = $twig->root->first_child("teiHeader");
            $HeaderBalise->print($fh);
            print {$fh} "<text><body>";
     
            print {$fh} "<div"; 
            foreach ( keys %{$DivParent->{"att"}} ) {
              print {$fh} " $_=\"$DivParent->{att}->{$_}\"";
            }
            print {$fh} ">";
            $BaliseDiv->print($fh);
     
            print {$fh} "</div>";
     
            print {$fh} "</body></text></TEI>";
            close($fh);
     
            ##on indente correctement le fichier en appelant le PrettyPrintXml
            PrettyPrintXml($Articlefile);
            $i++;
        }
    }
     
    #================================================
    # reindet un fichier XML
    # require XML::Twig, File::Temp
    #================================================
    sub PrettyPrintXml {
        my ($XMLFile) = @_;
     
        # Temp file
        my ( $FhTemp, $TempFile )
            = File::Temp::tempfile( UNLINK => 1, SUFFIX => ".xml", );
        binmode( $FhTemp, ":utf8" );
     
        my $Twig = new XML::Twig( PrettyPrint => "indented", );
        $Twig->parsefile($XMLFile);
        $Twig->print($FhTemp);
        close($FhTemp);
        $Twig->purge;
     
        # Copy temp to file
        rename( $TempFile, $XMLFile );
     
        return;
    }
    Exemple de résultat :

    article3.xml
    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    <?xml version="1.0" encoding="UTF-8"?>
    <TEI xmlns="http://www.tei-c.org/ns/1.0">
      <teiHeader> <!-- information header--></teiHeader>
      <text>
        <body>
          <div subtype="CHA" type="part">
            <div type="article">
              <!-- titi -->
            </div>
          </div>
        </body>
      </text>
    </TEI>

    voilà

  15. #15
    Membre régulier
    Profil pro
    Inscrit en
    Février 2009
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2009
    Messages : 330
    Points : 93
    Points
    93
    Par défaut
    merci sa fonctionne tres bien

Discussions similaires

  1. Diviser un fichier XML en plusieurs fichiers XML avec XSLT
    Par bobkorn dans le forum XSL/XSLT/XPATH
    Réponses: 2
    Dernier message: 18/04/2008, 12h13
  2. Decomposé un fichier XML en plusieurs fichiers XML sous python
    Par elhout dans le forum Général Python
    Réponses: 6
    Dernier message: 12/03/2007, 14h20
  3. [XSLT] transfo d'un fichier XML en plusieurs fichiers XML
    Par doudou_rennes dans le forum XSL/XSLT/XPATH
    Réponses: 5
    Dernier message: 28/11/2006, 12h01
  4. [C#] Ecrire un fichier XML en plusieurs fois
    Par schizette dans le forum Windows Forms
    Réponses: 3
    Dernier message: 09/08/2006, 15h54
  5. [XSLT] Diviser un fichiers xml en plusieurs pages html
    Par thibaut06 dans le forum XSL/XSLT/XPATH
    Réponses: 8
    Dernier message: 07/04/2005, 16h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo