Bon j'ai commencé mon ti crawler , mais j'ai un tite question encore (je sais j'en pose trop ) , si mon spider télécharge une page avec un encodage BIG5 , pour garder les caractères je passe la page en utf-8
Code : Sélectionner tout - Visualiser dans une fenêtre à part
$page = encode_utf8($page);
, mon probleme est que HTML::Formattext et HTML::Treebuilder ont besoin d'un fichier physique pour fonctionner j'écrit donc mon fichier temp.html comme suit


Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
   my $code = shift;
    open FILE, '>temp.html' or die "temp.html : $!\n";
    print FILE "$code";
 close FILE;
mais l'encodage de windows etant ISO-8859-1 ou latin1 (je c plus ) , cela ne risque t'il pas de poser problème ?

Quelqu'un a t'il réussie a faire fonctionner, HTML::Formattext et HTML::Treebuilder sans fichier physique ?