parser une page html avec perl
Bonjour,
mon probleme consiste à convertir une page html en fichier texte pour pouvoir recuperer le texte de cette page.
jusqu'a mnt j'arrive a convertir cette page en fichier xml ke j'enregistre sous format ".txt",
et je recupere des les lignes voila le script que j'utilise:
# file: htmlToXml.pl
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
| use chilkat;
# Perl script to convert HTML files to well-formed XML
$htmlConv = new chilkat::CkHtmlToXml();
$success = $htmlConv->UnlockComponent("anything for 30-day trial");
if (! $success) {
print "component is locked!\n";
exit;
}
$htmlConv->ConvertFile("test.html","test1.txt");
$i=0;
open (F, "test1.txt") || die "Problème pour ouvrir";
while (<F>) {
if($_ =~ /<text>(.+)<\/text>*/)
{
print "$1 \n";
}
}
close F; |
cependant je n'arrive pas à recuperer les paragraphe je pense ke parske dans mon script je precise ke la ligne à afficher doit commencer par la balise <text> .
est ce ke kelk un peut m aider je suis vraiment bloqué,merci d'avance