Extraire des liens web d'un fichier .html

**Army_ftw** · 05/03/2014, 10h09

À que hello tout le monde !
Un peu nouveau dans le monde de Perl (études oblige), je suis à la recherche d'un peu d'aide. En effet, j'ai quelques exos à faire et je n'ai eu aucun soucis, sauf avec un seul. J'ai passé du temps à chercher la solution, mais je n'y arrive pas, d'où mon poste !
L'exo est très simple, récupérer (et afficher suivant leur nombre d’occurrence) tous les liens http, ftp et adresse mail d'une page web. De mon côté j'ai réussi à télécharger un .html d'une adresse web passé en commentaire, mais après je bloque :/.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#!/usr/bin/perl
use strict;
 
my $lien = $ARGV[0];
my $fichier;
my @contenu;
my %frequence_affichage;
my $row;
 
if(defined $lien){
	`curl $lien > fichier_tmp.html`;
	$fichier = "fichier_tmp.html";
	open FILE, "$fichier" or die "erreur ouverture fichier temporaire\n";
	@contenu = <FILE>;
 
	#Need help :'(
 
 
	close FILE;
 
	unlink "fichier_tmp.html";
}
else{
	die("Veuillez passer en argument une adresse web. Veuillez installer curl\n->  sudo apt-get install curl wget lynx w3m\n");
}

Merci d'avance !

**ggnore** · 05/03/2014, 11h09

Salut,

Tu as essayé http://search.cpan.org/~ether/WWW-Me...W/Mechanize.pm ?

**6ril23** · 05/03/2014, 12h10

Si tu as le fichier html de la page, tu peux donc le parcourir:

- soit "manuellement" ligne par ligne et expression régulière
- soit en parsant ton fichier avec HTML

arser et ensuite tu traite les données

je repasse dans l'après midi pour étoffer ma réponse

**Army_ftw** · 05/03/2014, 19h17

@ggnore : Merci de ton aide, mais malheureusement il faut faire ça sans utiliser de module externe :/

@6ril23 : Merci à toi aussi

. J'ai dans l'idée (mais après comment le coder je bloque) de faire un grep dans le fichier télécharger en utilisant un REGEX (du type <a href="." ) et récupérer tous les liens de cette manière, de les stocker dans un tableau hashage (pour pouvoir les compter). Mais mon problème c'est que je peux avoir plusieurs lien dans chaque ligne de mon fichier et je ne sais pas comment les récupérer :/

**ggnore** · 06/03/2014, 09h41

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
#!/usr/bin/perl
 
use strict;
use warnings;
 
my $input               ='<li><a href="http://general.developpez.com/cours/" title="">Tutoriels</a></li><li><a href="http://magazine.developpez.com/" title="">Magazine</a></li>
                <li><a href="http://general.developpez.com/faq/" title="">FAQs</a></li>
                <li><a href="http://blog.developpez.com/" title="">Blogs</a></li>
                <li><a href="http://projets.developpez.com/" title="">Projets</a></li>
                <li><a href="http://chat.developpez.com/" title="">Chat</a></li>
                <li><a href="http://www.developpez.com/newsletter/">Newsletter</a></li>
                <li><a href="http://etudes.developpez.com/">Études</a></li>
                <li><a href="http://emploi.developpez.com/" title="">Emploi</a></li>
                <li><a href="http://club.developpez.com/">Club</a></li>
                <li><a href="http://club.developpez.com/contacts/" title="">Contacts</a></li>';
 
sub count_href{
        my ($text, $pattern) = @_; 
        my @href_array = split($pattern, $text);
        return (scalar @href_array);
}
 
my $link_number = count_href($input, 'href');
printf "\nnb href : $link_number\n";
 
my $href_counter=1;
my @cutter;
 
while ($href_counter <= $link_number){
        $input =~ /a href=\"([^\"]*)\"/;
        printf "\n$href_counter/$link_number : $1\n";
        @cutter = split($1, $input);
 
#       foreach my $cut (@cutter){
#               printf "$cut;";
#       }
 
        printf "RESTE:$cutter[1]";
        $input = $cutter[1];
        $href_counter++;
}

C'est vite fait, mal fait, le dernier lien n'est pas extrait correctement, je ne sais pas pourquoi.

**6ril23** · 06/03/2014, 12h32

désolé j'ai pas pu repassé hier.

en reprenant ton code ça donnerait quelque chose comme (pas testé):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
#!/usr/bin/perl
use strict;
 
my $lien = $ARGV[0];
my $fichier;
my @contenu;
my %frequence_affichage;
my $row;
my @array;
 
if(defined $lien){
	`curl $lien > fichier_tmp.html`;
	$fichier = "fichier_tmp.html";
	open FILE, "$fichier" or die "erreur ouverture fichier temporaire\n";
	#@contenu = <FILE>;
 
	while(<FILE>){
		if ( $_ =~ /href="(.*)"/ ){
			print "lien: $1\n";
 			push (@array, $1);                  
		}
 	}
 
	close FILE;
 
	unlink "fichier_tmp.html";
}
else{
	die("Veuillez passer en argument une adresse web. Veuillez installer curl\n->  sudo apt-get install curl wget lynx w3m\n");
}
# pour avoir le nombre d'elements:
my $taille = @array
print $taille

**Army_ftw** · 06/03/2014, 13h25

Envoyé par ggnore

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
#!/usr/bin/perl
 
use strict;
use warnings;
 
my $input               ='<li><a href="http://general.developpez.com/cours/" title="">Tutoriels</a></li><li><a href="http://magazine.developpez.com/" title="">Magazine</a></li>
                <li><a href="http://general.developpez.com/faq/" title="">FAQs</a></li>
                <li><a href="http://blog.developpez.com/" title="">Blogs</a></li>
                <li><a href="http://projets.developpez.com/" title="">Projets</a></li>
                <li><a href="http://chat.developpez.com/" title="">Chat</a></li>
                <li><a href="http://www.developpez.com/newsletter/">Newsletter</a></li>
                <li><a href="http://etudes.developpez.com/">Études</a></li>
                <li><a href="http://emploi.developpez.com/" title="">Emploi</a></li>
                <li><a href="http://club.developpez.com/">Club</a></li>
                <li><a href="http://club.developpez.com/contacts/" title="">Contacts</a></li>';
 
sub count_href{
        my ($text, $pattern) = @_; 
        my @href_array = split($pattern, $text);
        return (scalar @href_array);
}
 
my $link_number = count_href($input, 'href');
printf "\nnb href : $link_number\n";
 
my $href_counter=1;
my @cutter;
 
while ($href_counter <= $link_number){
        $input =~ /a href=\"([^\"]*)\"/;
        printf "\n$href_counter/$link_number : $1\n";
        @cutter = split($1, $input);
 
#       foreach my $cut (@cutter){
#               printf "$cut;";
#       }
 
        printf "RESTE:$cutter[1]";
        $input = $cutter[1];
        $href_counter++;
}

C'est vite fait, mal fait, le dernier lien n'est pas extrait correctement, je ne sais pas pourquoi.

Merci de ta réponse ggnore ! Je vais me débrouiller avec ça

Extraire des liens web d'un fichier .html

Langage Perl

Discussions similaires

Partager

Partager