téléchargement de fichier

**Saoua83** · 04/06/2009, 09h04

Bonjour,

Je butte sur un petit problème, et j'espère que vous pourriez me donner un petit coup de main.

Je dois automatiser en perl le téléchargement d'un fichier : "Table_1_full_2008-12-16.xls" (par exemple) sur la page http://www.sanger.ac.uk/genetics/CGP/Census/, le fichier est téléchargeable en cliquant sur un lien dont le nom est "Complete working list.xls".

Je pense qu'il faut utiliser les modules WWW::Mechanize et/ou LWP::Simple, mais je tourne un peu en rond, quelqu'un aurait une solution pour m'aider ?

Merci d'avance

**Philou67430** · 04/06/2009, 10h44

Pour extraire les liens da la page HTML, tu peux utiliser le module HTML::SimpleLinkExtor, et pour uploader le fichier xls, la méthode getstore de LWP::Simple.

Une manière de faire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
 
#!/usr/bin/perl
 
use strict;
use warnings;
 
use HTML::SimpleLinkExtor;
use LWP::Simple qw($ua get getstore);
 
my $root = "http://www.sanger.ac.uk/genetics/CGP/Census/";
 
# création d'un analyseur de lien HTML et analyse de l'URL
my $link_html = HTML::SimpleLinkExtor->new();
$link_html->parse_url($root);
 
# récupération du lien désiré
my ($excel_link) = grep /\.xls$/ , $link_html->links();
 
# enregistrement du fichier excel
print "Uploading $root/$excel_link\n";
getstore("$root/$excel_link", "full.xls");

Ceci ne correspond pas exactement à la recherche d'un lien caché derrière un texte donné (mais plutôt à la recherche d'un lien vers un fichier avec une extension .xls). Ceci fonctionnera donc seulement si le fichier Excel recherché est le seul de la page. Les modules LinkExtor ne retournent pas le contenu texte de la balise contenant le lien, ce qui ne permet pas de faire l'analyse de ce texte pour répondre exactement à la question posée. Pour se faire, il faudrait utilise un parser plus générique.

**Saoua83** · 04/06/2009, 11h27

Merci beaucoup Philou67430

J'ai une autre question alors

pour récupérer plusieurs fichiers .tsv sur un serveur FTP, je suppose que ce ne sera pas le module HTML::SimpleLinkExtor; qu'il faudra utiliser... un coup de pouce ?

Encore une autre chose:
D'après le code que tu m'as donné, j'essaye de l'adapter pour extraire plusieurs fichiers .txt d'un site en javascript (je pense que c'est du javascript) : http://methycancer.psych.ac.cn/Download.do, de plus la page annonce un serveur FTP mais est-ce que c'est vraiment un serveur FTP ? c'est peut-être pourquoi pour le moment mon script ne donne pas grand chose

Encore merci d'avance à ceux ou celles qui pourront m'aider

**Philou67430** · 04/06/2009, 11h43

Envoyé par Saoua83

J'ai une autre question alors

pour récupérer plusieurs fichiers .tsv sur un serveur FTP, je suppose que ce ne sera pas le module HTML::SimpleLinkExtor; qu'il faudra utiliser... un coup de pouce ?

Tout dépend si les fichiers .tsv sont références en tant que lien dans une page HTML. Si ce n'est pas le cas, tu peux utiliser un aspirateur tel que wget, qui, en utilisant les options de filtre des extensions, devrait faire l'affaire.

D'après le code que tu m'as donné, j'essaye de l'adapter pour extraire plusieurs fichiers .txt d'un site en javascript (je pense que c'est du javascript) : http://methycancer.psych.ac.cn/Download.do, de plus la page annonce un serveur FTP mais est-ce que c'est vraiment un serveur FTP ? c'est peut-être pourquoi pour le moment mon script ne donne pas grand chose

Encore merci d'avance à ceux ou celles qui pourront m'aider

Le site offre semble-t-il une interface http pour accéder à son serveur FTP (qui lui, semble bloqué en accès direct).
Cela dit, les URL des fichiers du site ne présentent un motif différent du fichier Excel à chercher de tout à l'heure. Une recherche de ce type devrait fonctionner :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
my $root = "http://methycancer.psych.ac.cn/";
my $root_re = quotemeta $root;
my @fasta_links = grep /${root_re}Getdata.do\?filename=/ , $link_html->links();

**Saoua83** · 04/06/2009, 14h26

Encore une fois merci, le wget fonctionne nikel, je connaissais en plus mais je n'y avais pas pensé...

Quand au deuxième problème sur le site de MethyCancer c'est une autre histoire...

Voici mon code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
 
#!/usr/bin/perl
 
use strict;
use warnings;
use HTML::SimpleLinkExtor;
use LWP::Simple qw($ua get getstore);
 
sub MC_Extractor{
	my $root = "http://methycancer.psych.ac.cn/";
	my $root_re = quotemeta $root;
	my $link_html = HTML::SimpleLinkExtor->new();
	$link_html->parse_url($root);
 
	#my @a_hrefs = $link_html->a;
	#for my $element (@a_hrefs) {
		#print $element;
		#print "\n";
		#getstore("$element", "MC_.$element.txt");
	#}
 
	my @fasta_links = grep /${root_re}Getdata.do\?filename=/ , $link_html->links();
	for my $element (@fasta_links) {
		print "Uploading $root/$element\n";
		getstore("$root/$element", "MC_.$element.txt");
	}
}
&MC_Extractor()

Je penses qu'il y a un problème au niveau de la ligne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my @fasta_links = grep /${root_re}Getdata.do\?filename=/ , $link_html->links();

Il faudrait une déspécialisation du symbole = ou quelquechose comme ça peut-être...

**Philou67430** · 04/06/2009, 14h34

Que donne la sortie standard du script ?
J'aurais tendance à dire qu'il essaye de créer localement des fichiers MC_Getdata.do?filename=...

Ce qui n'est pas forcément élégant.
Avec d'écrire le fichier, tu peux peut-être extraire le nom du fichier dernière filename=

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my ($local_name) = $element =~ /filename=([^&]+)/;

Sinon, je ne comprends pas ta question de déspécialisation de =

téléchargement de fichier

Web Perl

Vue hybride

Discussions similaires

Partager

Partager