Précédent   Forum des professionnels en informatique > Systèmes > Linux > Applications
Applications Questions sur l'utilisation d'applications, du shell, et des interfaces graphiques (KDE, Gnome, XFCE... )
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 30/11/2006, 10h00   #1
Membre à l'essai
 
Inscription : août 2005
Messages : 129
Détails du profil
Informations forums :
Inscription : août 2005
Messages : 129
Points : 20
Points : 20
Par défaut Télécharger uniquement les fichiers HTML

Bonjour,

Je dois remplacer une expression dans tous les fichiers HTML d'un site.
Je n'ai donc pas besoin de rapatrier tous les fichiers, notemment les images (il y en a + de 6000).
Comment faire avec wget ?

Merci d'avance.
anti-conformiste est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 30/11/2006, 11h25   #2
Membre Expert
 
Avatar de narmataru
 
Inscription : décembre 2002
Messages : 1 423
Détails du profil
Informations personnelles :
Âge : 31
Localisation : France, Loire Atlantique (Pays de la Loire)

Informations forums :
Inscription : décembre 2002
Messages : 1 423
Points : 1 491
Points : 1 491
salut,
man wget nous dit :

Citation:
Recursive Accept/Reject Options

-A acclist --accept acclist
-R rejlist --reject rejlist
Specify comma-separated lists of file name suffixes or patterns to accept or reject (@pxref{Types of Files} for more details).
__________________
Reportage d'Arte sur Linux
narmataru est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/12/2006, 10h18   #3
Membre à l'essai
 
Inscription : août 2005
Messages : 129
Détails du profil
Informations forums :
Inscription : août 2005
Messages : 129
Points : 20
Points : 20
Citation:
Envoyé par narmataru
salut,
man wget nous dit :
Ok, merci. J'ai eu un peu de mal à mettre en oeuvre la syntaxe, mais j'ai fini par trouver.

Autre question sur le même sujet : maintenant que je parviens à télécharger les fichiers html seuls, wget ne descend plus recursivement dans les repertoire; autrement dit, je n'obtiens que les fichiers html de la racine du site. Comment faire pour obtenir toute l'arborescence avec seulement les fichiers HTML ?

ma commande :
Code :
1
2
 
wget http://www.monsite.com/ -r -l 0 -N -A html,htm
Merci de votre intérêt.
anti-conformiste est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/12/2006, 10h38   #4
Membre Expert
 
Avatar de narmataru
 
Inscription : décembre 2002
Messages : 1 423
Détails du profil
Informations personnelles :
Âge : 31
Localisation : France, Loire Atlantique (Pays de la Loire)

Informations forums :
Inscription : décembre 2002
Messages : 1 423
Points : 1 491
Points : 1 491
bonjour,
Si tu ne vois pas pourquoi ta commande ne téléchargement pas récursivement c'est qu'il y a un problème ! Sais-tu à quoi correspondent les options que tu passes à wget ?
Par exemple :
Citation:
Envoyé par man wget
-l depth
--level=depth
Specify recursion maximum depth level depth. The default maximum depth is 5.
Je t'encourage à lire le manuel de wget !
__________________
Reportage d'Arte sur Linux
narmataru est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/12/2006, 11h56   #5
Membre à l'essai
 
Inscription : août 2005
Messages : 129
Détails du profil
Informations forums :
Inscription : août 2005
Messages : 129
Points : 20
Points : 20
Citation:
Envoyé par narmataru
bonjour,
Si tu ne vois pas pourquoi ta commande ne téléchargement pas récursivement c'est qu'il y a un problème ! Sais-tu à quoi correspondent les options que tu passes à wget ?
Par exemple :

Je t'encourage à lire le manuel de wget !
J'ai commencé à la lire puis, je suis tombé sur une traduction en Français de la doc, qui indiquait "-l 0" égal à "-l inf" => descend récursivement dans tous les sous-rep.

Et oui, mauvaise traduction de l'auteur. Je vais lui envoyer un mail en le remerciant pour son travail de traduction et en lui faisant remarquer amicalement qu'il y a cependant une erreur.

J'ai essayé la commande suivante, mais cela ne fonctionne toujours pas :
Code :
1
2
 
wget http://www.monsite.com/ -r -l 50 -A html,htm
Je ne comprends pas où ça foire...
Merci à toi.
anti-conformiste est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/12/2006, 12h09   #6
Membre Expert
 
Avatar de narmataru
 
Inscription : décembre 2002
Messages : 1 423
Détails du profil
Informations personnelles :
Âge : 31
Localisation : France, Loire Atlantique (Pays de la Loire)

Informations forums :
Inscription : décembre 2002
Messages : 1 423
Points : 1 491
Points : 1 491
Citation:
Envoyé par anti-conformiste
J'ai commencé à la lire puis, je suis tombé sur une traduction en Français de la doc, qui indiquait "-l 0" égal à "-l inf" => descend récursivement dans tous les sous-rep.

Et oui, mauvaise traduction de l'auteur. Je vais lui envoyer un mail en le remerciant pour son travail de traduction et en lui faisant remarquer amicalement qu'il y a cependant une erreur.

Merci à toi.
ha ben peut être pas Si ça se trouve c'est moi qui me suis trompé. Ca parait bien dans la logique des commande de mettre 0 pour l'infini.
Excsue-moi je me suis précipité

Par contre, lorsque tu télécharge les pages html, wget va suivre les liens et non pas l'arborescence. Si tu as un accès ftp essaye plutot ça :

Citation:
wget ftp://login:passwd@serveurftp.toto.fr/monsite/ -c -r -l 0 -A html,htm
__________________
Reportage d'Arte sur Linux
narmataru est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/12/2006, 12h15   #7
Membre à l'essai
 
Inscription : août 2005
Messages : 129
Détails du profil
Informations forums :
Inscription : août 2005
Messages : 129
Points : 20
Points : 20
Citation:
Envoyé par narmataru
ha ben peut être pas Si ça se trouve c'est moi qui me suis trompé. Ca parait bien dans la logique des commande de mettre 0 pour l'infini.
Excsue-moi je me suis précipité
C'est pas grave, y'a pas de mal, c'est déjà très gentil de m'aider !!!
Je n'ai pas d'accès ftp

J'ai enlevé l'option -l car par défaut, le niveau récursif est à 5.
Si je précise que je ne souhaite que les fichiers html (-A html,htm), il ne descend par récursivement. Sans l'option -A, il me télécharge bien tous le site avec les sou-rep (enfin, il commence, il y a 347Mo )

Bref comment cela se fait-il
anti-conformiste est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/12/2006, 12h21   #8
Membre Expert
 
Avatar de narmataru
 
Inscription : décembre 2002
Messages : 1 423
Détails du profil
Informations personnelles :
Âge : 31
Localisation : France, Loire Atlantique (Pays de la Loire)

Informations forums :
Inscription : décembre 2002
Messages : 1 423
Points : 1 491
Points : 1 491
Essaye peut être en disant de tout télécharger sauf les images
Citation:
wget http://www.monsite.com/ -r -c -R *.gif,*.png,*.jpg,*.swf
__________________
Reportage d'Arte sur Linux
narmataru est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/12/2006, 12h28   #9
Membre à l'essai
 
Inscription : août 2005
Messages : 129
Détails du profil
Informations forums :
Inscription : août 2005
Messages : 129
Points : 20
Points : 20
Citation:
Envoyé par narmataru
Essaye peut être en disant de tout télécharger sauf les images

C'est justement ce que je testais à part que j'ai oublié de lui préciser les png; le résultat est curieux : il me télécharge toute la racine et un sous répertoire avec un fichier png. Mais pourquoi pas les autres fichiers (html par exemple) et pourquoi uniquement ce sous-dossier
anti-conformiste est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 13h31.


 
 
 
 
Partenaires

Hébergement Web