ou plus élaboré (j'explore):
scrappy
treebuilder
text::scraper
www::scraper
Quelqu'un connaît ?
Type: Messages; Utilisateur: ellinguista
ou plus élaboré (j'explore):
scrappy
treebuilder
text::scraper
www::scraper
Quelqu'un connaît ?
Times
il y a des sérifs, ce n'est pas proportionnel, mais c'est beaucoup plus agréable
NB: l'auteur du test sondage dû prévoir de quoi indiquer laquelle, dans la rubrique Autre
a) le nettoyer par http://www.w3.org/People/Raggett/tidy/
mais c'est intrusif
b) découper par regexp la zone de commentaires en supposant qu'elle, elle est propre (pusiqu'elle a une structure assez...
[QUOTE=djibril;5632675]En téléchargeant le contenu de cette page et en le reformattant via un éditeur de texte, on s'aperçoit qu'il n'est pas valide.
Hm hm...
Lemonde a l'air très mal xml-isé...
## Voici un test sur une page de Le Figaro
#!/usr/bin/perl -w
use strict;
use XML::Twig;
J'applique Twig pour parser des sites de forums, et sur la plupart des sites j'ai énormément de "parse errors", pratiquement intraçables.
Où est le problème?
Leur code XMTML n'est pas conforme...
Strictement du XML, ou ça tolère du XHTML variété blog ?
use XML::Twig;
##...
sub f_hard() {
my ($t, $elt) = @_;
my $value = $elt->first_child->pcdata();
my $tag= $elt->name();
print "tag: $tag, value: $value\n";
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.