Extraction du text dans un fichier html
Bonjour,
J'ai en entrée un fichier html et je cherche à recuperer uniquement l'information textuel de ce fichier :
Citation:
<td class="avistxt" width="290">Alors pour moi qui bricole .... ou pour ouvrir un dossier.</td>
et j'aimerais recuperer uniquement : " Alors pour moi qui bricole ....blabla... ou pour ouvrir un dossier.
C'est à titre d'exemple biensur
j'ai réutiliser le code exposé dans un ancien post, ce qui me donne :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
| #!/usr/bin/perl
use strict;
use warnings;
use HTML::Parser;
my $page = "Z:\essai.html";
# création de mon parser
my $parser = HTML:Parser->new();
# définition des mes evenements
$parser->handler( text => \&text, "text" );
$parser->handler( start => \&start, "tagname,attr" );
$parser->handler( end => \&end, "tagname" );
$parser->parse($page);
{
my $in_span_textegras;
my @data;
sub start {
my ($tag, $attr) = @_;
$in_span_textegras++
if $tag eq 'td' and $attr->{class} eq 'avistxt';
}
sub end {
my ($tag) = @_;
$in_span_textegras--
if $tag eq 'td' and $in_span_textegras;
}
sub text {
my ($text) = @_;
push @data, $text
if $in_span_textegras;
}
} |
Comme vous vous en doutez, je n'ai pas ou presque pas de connaissance dans le language PERL
Est ce que vous y voyez des erreurs ? est ce que à la place de "dtext" dois je mettre mes mots à rechercher sachant que le contenu textuel change à chaque page ? (désolé si je dis des bétises :s)
Est ce que le faite que je sois sous windows pose un souci sur l'utilisation de PERL ?
tant de réponse qui me sont encore inconnu pour une simple débutante que je suis :p
merci à ceux qui répondront