Précédent   Forum des professionnels en informatique > Systèmes > Linux > Applications > Shell
Shell Vos questions sur l'utilisation des commandes shell
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 06/07/2006, 16h23   #1
Membre confirmé
 
Inscription : février 2006
Messages : 493
Détails du profil
Informations forums :
Inscription : février 2006
Messages : 493
Points : 207
Points : 207
Par défaut Wget et changement du nom

Bonjour,

Je m'y connais pas grand chose à Linux...

Je voudrais récupérer les pages html de qq site. J'utilise donc la commande

où dans fichier j'ai :
Code :
1
2
http://www.monsite1.com
http://www.monsite2.com
Le problème est qu il récupère les fichiers sous un nom qui ne me plait pas...
c'est à dire index.html, index.html.1,... Je voudrais qu'il me mette ca dans le répertoire ./monsite1/index.html et ./monsite2/index.html

comment peut on faire ca?

Merci
trihanhcie est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 06/07/2006, 17h29   #2
Membre Expert
 
Avatar de 2Eurocents
 
Inscription : septembre 2004
Messages : 2 180
Détails du profil
Informations personnelles :
Âge : 42

Informations forums :
Inscription : septembre 2004
Messages : 2 180
Points : 2 442
Points : 2 442
-r = option de descente dans les répertoires.

Accessoirement, pour aspirer proprement des fichiers, je fais souvent :
Code :
wget -nv --mirror mon_fichier_a_recuperer
--mirror correspond aux options -r -N -l inf -nr documentées dans les pages de manuel de la commande wget
__________________
La FAQ Perl est par ici
: La fonction "Rechercher", on aurait dû la nommer "Retrouver" - essayez et vous verrez pourquoi !
2Eurocents est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 06/07/2006, 17h51   #3
Membre confirmé
 
Inscription : février 2006
Messages : 493
Détails du profil
Informations forums :
Inscription : février 2006
Messages : 493
Points : 207
Points : 207
J'ai du mal m'exprimer alors

En fait, j'ai pas besoin de télécharger tout le site (du moins pour le moment). Je voudrais juste récupérer le 'index.html' des différents sites.

Seulement, si j'ai mis toutes les urls dans un fichier, il va me télécharger directement dans le répertoire courant d'une part.

Donc, si je suis par exemple dans /home/mon_repertoire/ et que je lance
et que dans mon fichier j'ai
Code :
1
2
http://www.monsite1.com
http://www.monsite2.com
il va me créer 2 fichiers : index.html et index.html.1

Ce que je voudrais, c'est qu il me les télécharge dans :
Code :
1
2
3
 
/home/mon_repertoire/monsite1/index.html
/home/mon_repertoire/monsite2/index.html
C'est à dire récupérer le nom des urls et pouvoir créer des dossiers Je voulais éviter d'utiliser du php pour faire ca
trihanhcie est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 06/07/2006, 18h38   #4
Membre Expert
 
Avatar de 2Eurocents
 
Inscription : septembre 2004
Messages : 2 180
Détails du profil
Informations personnelles :
Âge : 42

Informations forums :
Inscription : septembre 2004
Messages : 2 180
Points : 2 442
Points : 2 442
Code :
1
2
3
for site in $( sed 's/http:\/\///' fichier ); do
  wget -P $site http://$site/index.html
done
C'est pas top, mais c'est tout ce que je vois pour le moment ...

Bon courage.
__________________
La FAQ Perl est par ici
: La fonction "Rechercher", on aurait dû la nommer "Retrouver" - essayez et vous verrez pourquoi !
2Eurocents est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 07/07/2006, 12h04   #5
Membre confirmé
 
Inscription : février 2006
Messages : 493
Détails du profil
Informations forums :
Inscription : février 2006
Messages : 493
Points : 207
Points : 207
Merci pour le moment je me suis débrouillé avec un script php plus simple :d
trihanhcie est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 21h37.


 
 
 
 
Partenaires

Hébergement Web