Bonjour,
mon probleme consiste à convertir une page html en fichier texte pour pouvoir recuperer le texte de cette page.
jusqu'a mnt j'arrive a convertir cette page en fichier xml ke j'enregistre sous format ".txt",
et je recupere des les lignes voila le script que j'utilise:

# file: htmlToXml.pl

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
use chilkat; 
 
# Perl script to convert HTML files to well-formed XML 
 
$htmlConv = new chilkat::CkHtmlToXml(); 
$success = $htmlConv->UnlockComponent("anything for 30-day trial"); 
if (! $success) { 
print "component is locked!\n"; 
exit; 
} 
 
$htmlConv->ConvertFile("test.html","test1.txt"); 
$i=0; 
open (F, "test1.txt") || die "Problème pour ouvrir"; 
while (<F>) { 
if($_ =~ /<text>(.+)<\/text>*/) 
{ 
 
print "$1 \n"; 
} 
 
 
} 
close F;
cependant je n'arrive pas à recuperer les paragraphe je pense ke parske dans mon script je precise ke la ligne à afficher doit commencer par la balise <text> .

est ce ke kelk un peut m aider je suis vraiment bloqué,merci d'avance