Bonjour je suis nouveaux sur le forum j'ai un ti problème avec un script que je suis entrain d'élaborer j'utilise dans ce script le programme XURL dispo sur le CPAN mais il ne suis pas les urls comme HTML::LinkExtor(j'arrive pas a l'utiliser dans faire des doublons dans tout les sens).
Voici ma fonction
si je cible par exemple free.fr , le programme ne me renvoie que les lien présent sur la primière page, moi je voudrais qu'il les suivent.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24 #------------------------------------------------# # Exploration des liens (sans doublon) :) # #------------------------------------------------# sub exploration { my $ua = new LWP::UserAgent; $ua->agent('Mozilla/4.0 (compatible;)'); my($url, %saw, @urls); foreach $url ( @_ ) { my $res = $ua->request(HTTP::Request->new(GET => $url)); my $ht_tree = parse_html($res->content); my $base = $res->base; my($linkpair, $fqurl); foreach $linkpair (@{$ht_tree->extract_links(qw<a img>)}) { my($link,$elem) = @$linkpair; push(@urls, $fqurl) unless $saw{ $fqurl = url($link,$base)->abs->as_string }++; } } push @urls, return sort keys %saw;
Merci 8) !
pd : pour ceux que sa intéresse c'est pour faire un moteur de recherche pour mon site qui vas tout déchirer (heu sa reste a voir), en plus sa me fait de l'exercice de faire un spider
Partager