parser un document xml/xhtml

**knebhi** · 09/09/2014, 17h55

Bonjour,

J'ai un fichier xhtml qui en gros ressemble a cela:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
<?xml version="1.0" encoding="utf-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr">
<head>
...
</head>
<div class="text">
<p><span><span> paragraphe1 </span></span></p>
 
<p><span><span> paragraphe2 </span></span></p>
 
</div>

je souhaiterai transformer ce fichier pour obtenir cela en sortie:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
<P>
paragraphe1
<P>
paragraphe2

Je recherche un parser xml/xhtml qui me permettrait de faire cela simplement. Je prefere utiliser un parser car par la suite j'aurai peut etre d'autres manipulation a realiser.

pour le moment j'ai tenter d'utiliser Mojo

OM mais cela ne renvoi rien:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
#!/usr/bin/env perl
 
use strict;
use warnings;
use feature 'say';
use Mojo::DOM;
 
# slurp all DATA lines
my $dom = Mojo::DOM->new(do { local $/; <DATA> });
 
say $_->text for $dom->at('.text')->find('p')->each;
 
__DATA__
<div class="text">
<p><span><span><span>para1</span></span></span></p>
<p><span><span><span>para2</span></span></span></p>
</div>

merci

**Lolo78** · 09/09/2014, 18h48

Peut-être l'un des modules XML du CPAN: par exemple, XML:: Parser, XML::LibXML.

**knebhi** · 09/09/2014, 21h33

Envoyé par Lolo78

Peut-être l'un des modules XML du CPAN: par exemple, XML:: Parser, XML::LibXML.

J'ai choisi LibXML mais pour le moment ce n'est pas exactement ce que je veux.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
 
#!/usr/bin/perl
use strict;
use warnings;
use XML::LibXML;
use utf8; binmode(STDOUT, ":encoding(UTF-8)");    use open qw( :encoding(UTF-8) :std );
 
my $FichierXML = 'test.xml';
my $parser     = XML::LibXML->new();
 
my $tree = $parser->parse_file($FichierXML);
 
my $root = $tree->getDocumentElement;
 
# Balise para
my @para = $root->getElementsByTagName('p');
foreach my $childid (@para) {
	print "<P>"."\n";
	print $childid->getElementsByTagName('span')."\n";
 
}

j'aimerai avoir tout le texte contenu dans les balises p; le problème est que cette balise contient des sous noeuds span.

Comment puis-je faire ?

**Philou67430** · 10/09/2014, 12h17

Envoyé par knebhi

pour le moment j'ai tenter d'utiliser Mojo

OM mais cela ne renvoi rien:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
#!/usr/bin/env perl
 
use strict;
use warnings;
use feature 'say';
use Mojo::DOM;
 
# slurp all DATA lines
my $dom = Mojo::DOM->new(do { local $/; <DATA> });
 
say $_->all_text for $dom->at('.text')->find('p')->each;
 
__DATA__
<div class="text">
<p><span><span><span>para1</span></span></span></p>
<p><span><span><span>para2</span></span></span></p>
</div>

merci

Change l'appel à la méthode "text" par l'appel à la méthode "all_text"

**knebhi** · 10/09/2014, 13h33

Envoyé par Philou67430

Change l'appel à la méthode "text" par l'appel à la méthode "all_text"

merci ça fonctionne très bien. par contre j'aimerai mettre un marqueur entre chaque paragraphe comme un # ou autre chose.

quelle méthode je peux utiliser ?

**Philou67430** · 10/09/2014, 16h52

Pourrais-tu donner un exemple de ce que tu veux obtenir ?

**knebhi** · 11/09/2014, 14h04

Envoyé par Philou67430

Pourrais-tu donner un exemple de ce que tu veux obtenir ?

en gros je veux récupérer tout le texte contenu dans les éléments - mais seulement les contenu dans la <div class="text">.

au final je souhaite insérer une balise entre chaque paragraphe pour obtenir ce résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
<P>
paragraphe1
<P>
paragraphe2

**Philou67430** · 11/09/2014, 14h31

Comme ceci ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#!/usr/bin/env perl
 
use strict;
use warnings;
use feature 'say';
use Mojo::DOM;
 
# slurp all DATA lines
my $dom = Mojo::DOM->new(do { local $/; <DATA> });
 
$dom->at('.text')->find('p')->each(sub { $_->content($_->all_text()) });
say "$dom";
__DATA__
<div class="text">
<p><span><span><span>para1</span></span></span></p>
<p><span><span><span>para2</span></span></span></p>
</div>

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
$ perl 1.pl
<div class="text">
<p>para1</p>
<p>para2</p>
</div>

**knebhi** · 11/09/2014, 16h45

Envoyé par Philou67430

Comme ceci ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#!/usr/bin/env perl
 
use strict;
use warnings;
use feature 'say';
use Mojo::DOM;
 
# slurp all DATA lines
my $dom = Mojo::DOM->new(do { local $/; <DATA> });
 
$dom->at('.text')->find('p')->each(sub { $_->content($_->all_text()) });
say "$dom";
__DATA__
<div class="text">
<p><span><span><span>para1</span></span></span></p>
<p><span><span><span>para2</span></span></span></p>
</div>

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
$ perl 1.pl
<div class="text">
<p>para1</p>
<p>para2</p>
</div>

non en fait je ne veux que le texte puis un retour chariot et enfin une balise 
mais je ne veux fermer la balise

**Philou67430** · 12/09/2014, 09h34

Je ne crois pas qu'il soit possible de remplacer un élément par un arbre non conforme à XML (c'est à dire des balises non fermée) avec Mojolicious : si tu essayes ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#!/usr/bin/env perl
 
use strict;
use warnings;
use feature 'say';
use Mojo::DOM;
 
# slurp all DATA lines
my $dom = Mojo::DOM->new(do { local $/; <DATA> });
$dom->at('.text')->find('p')->each(sub { $_->replace('<p>'.$_->all_text()) });
say "$dom"; 
__DATA__
<div class="text">
<p><span><span><span>para1</span></span></span></p>
<p><span><span><span>para2</span></span></span></p>
</div>

La balise de fermeture est automagiquement ajoutée :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$ perl 1.pl
<div class="text">
<p>para1</p>
<p>para2</p>
</div>

Je pense, par extension, que ce n'est pas possible avec n'importe quel module manipulant un "DOM"

**Lolo78** · 12/09/2014, 19h02

Il doit cependant être possible de retraiter manuellement le contenu généré par DOM juste avant der l'imprimer.

**Philou67430** · 15/09/2014, 17h01

Autant tout faire en regexp alors, non ?

**Lolo78** · 15/09/2014, 21h03

Envoyé par Philou67430

Autant tout faire en regexp alors, non ?

Bah, à la limite, pourquoi pas?

Voici un fil sur Perlmonks aujourd'hui ou hier dans lequel je dis que c'est faisable dans certains cas. Et j'ai eu (à l'heure actuelle) 25 votes positifs et aucun négatif. A l'heure où j'écris, mon post figure même en troisième meilleure position des posts de la journée. Ce qui prouve que les moines de Perlmonks sont moins intégristes qu'on pourrait le croire (pour des moines, je veux dire).

Mais, personnellement, je crois que je préférerais ici retraiter le résultat produit par DOM, ce qui est assez simple, plutôt que de gérer le parsing du HTML.

**knebhi** · 17/09/2014, 15h27

j'ai retraité le resultat (j'ai effacer quelques balises)- mais bon j'aurai tout un tas de fichiers donc c'est pour cela que je souhaitais faire ça le plus
proprement possible.

merci encore

**chalu133** · 18/09/2014, 17h08

Bonjour,
J'aurais une question concernant le lecture d'un champ XML:

J'ai un xml de la forme
----------------------------------------------------------------------
<General>
<Code name="ZA1">
<Type>BINARY</Type>
</Code>
<Code name="Y61">
<Type>BINARY2</Type>
</Code>
<Code name="Z61">
<Type>BINARY3</Type>
</Code>
</General>
---------------------------------------------------------------------------

Le scirpt Perl lit un fichier texte qui conrtient le "Code name", (ZA1,Y61,Z61,...) et je doit récupérer le "Type" dans le xml.
J'utilise avec XML::Simple

Pas de problème pour le récupéerer en faisant :
-----------------------------------------------------
my $parser = XML::Simple->new();
$monxml=toto.xml;
my $xml=$parser->XMLin($monxml, keyattr=>['General']);
my $xmlgeneral=$xml->{General};
my $Code=$xmlgeneral->{Code};
foreach my $fab (@{$Code}) {
if ($fab->{name} eq "$mavaleur") { # $mavaleur sera soit ZA1,Y61,Z61,...
print "Product type found ".$fab->{Type}."\n";
}
}

Mais je voudrais savoir s'il est possible de récupérer la valeur du tag <Type> sans passer par une boucle foreach
J'ai essayer plusieurs syntaxe du style $Code->$mavaleur->{Type} mais sans succés.

Merci,

parser un document xml/xhtml

Langage Perl

Discussions similaires

Partager

Partager