copier automatiquement une page web en fichier texte

**Belmondo** · 12/09/2008, 15h51

Bonjour à tous

Je suis nouveau ici, nouveau dans mon école d'info et j'ai une question ( et bien d'autre sûrement dans peu de temps

)

Mais voici la première : Comment puis-je faire pour que chaque page web visitée avec firefox soit copiée dans un fichier texte. Le mieux serait de pouvoir le faire depuis le terminal ?

En somme, il faudrait que chaque fois qu'une page web est visité, il y ait un "tout sélectionner" suivi d'un "copier" suivi d'un "coller dans un fichier texte" et ça tout seul. Je me doute bien que la page n'aura pas du tout la même tête, mais il me faut juste le texte.

Le but étant après de mettre une liste d'URL dans la console du terminal et que toutes ces pages soient copiées dans des fichiers textes.

Merci à tous

**Sve@r** · 12/09/2008, 16h01

Envoyé par Belmondo

En somme, il faudrait que chaque fois qu'une page web est visité, il y ait un "tout sélectionner" suivi d'un "copier" suivi d'un "coller dans un fichier texte" et ça tout seul. Je me doute bien que la page n'aura pas du tout la même tête, mais il me faut juste le texte.

Tu peux regarder dans les modules firefox ce qui est dispo (mais ça métonnerait que ça ait été fait) donc tu peux développer ton propre module...

Envoyé par Belmondo

Le but étant après de mettre une liste d'URL dans la console du terminal et que toutes ces pages soient copiées dans des fichiers textes.

Ah ça c'est différent car si tu utilises la console tu peux très bien lancer alors autre chose que firefox. Donc tu peux développer ton propre programme (C, Perl, Python) qui ouvre une socket sur l'URL (port 80) et lit la socket pour copier les data dans un fichier

**Belmondo** · 12/09/2008, 19h54

... Normal quoi !

je suis entré cette année dans une école d'ingénieur en 5 ans et je crois que je vais attendre quelques années encore ! Les mots de perl, C, python ne me sont pas étranges mais je n'ai pas le niveau pour construire quelque chose !! Je pensais qu'il y avait peut-être moyen de faire simple avec les fichiers cache de firefox que la console lirait (avec la commande perle peut-être) puis de copier ces fichiers dans un autre format (txt) ...

J'allais oublié : un grand merci pour la réponse, je ne m'attendais vraiment pas a une telle rapidité même si le niveau est un peu élèvé !

**frp31** · 12/09/2008, 21h34

je ferai simple (probablement un peu lent :
en deux etapes majeures :
wget ............................htm
suivi d'un script sed qui vires toutes les balises & entetes ou avec un perl...

par exemple en shell

**Sve@r** · 12/09/2008, 21h37

Envoyé par Belmondo

J'allais oublié : un grand merci pour la réponse, je ne m'attendais vraiment pas a une telle rapidité même si le niveau est un peu élèvé !

Bah pur hasard. Je me suis connecté qq minutes après ton post. Mais examine plus en détail la réponse de frp31...

**Belmondo** · 12/09/2008, 22h18

Envoyé par frp31

je ferai simple (probablement un peu lent :
en deux etapes majeures :
wget ............................htm
suivi d'un script sed qui vires toutes les balises & entetes ou avec un perl...

par exemple en shell

Là je comprends un tout petit peu, j'avais déjà utilisé la commande sed pour afficher que les adresses mails contenues dans des fichiers texte. Mais je suis loin de voir comment je vais m'y prendre

Je vais donc examiner un peu la question, à commencer par le wget

**Sve@r** · 13/09/2008, 19h43

Envoyé par Belmondo

Là je comprends un tout petit peu, j'avais déjà utilisé la commande sed pour afficher que les adresses mails contenues dans des fichiers texte. Mais je suis loin de voir comment je vais m'y prendre

Ben la commande "sed" se comporte exactement comme "vi". Tu peux lui faire transformer, dupliquer ou supprimer des expressions exactement comme tu le fais avec "vi"

Exemple: affiche le HOME mais remplace chaque "/" par ":"

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

echo $HOME |sed -e "s/\//:/g"

Exemple: affiche le PATH mais remplace chaque ":" par "-" et chaque "u" par "v" (comme chez les romains)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

echo $PATH |sed -e "s/:/-/g" -e "s/u/v/g"

Donc pour bien y arriver, faut le faire par étapes
1) tu récupères ta page avec wget et tu la stockes dans un fichier de travail (pour bien pouvoir l'examiner)
2) quand tu l'examines, tu essayes de voir les opérations simples pour supprimer ce qui est en trop et tu essayes d'imaginer les ordres correspondants (tu n'as pas que sed pour t'aider, t'as aussi cut et awk) - Evidemment c'est la phase la plus dure (je me souviens qu'une fois, pour transformer une liste d'utilisateurs en fichier ldap, j'ai enchainé jusqu'à 7 commandes à suivre et j'ai fait exactement comme ci-desus => j'ai travaillé chaque commande de façon indépendante jusqu'à ce qu'elle me donne ce que j'attendais puis je passais à la suivante)
3) en final, tu écris ton script où tu lances ton wget qui traverse ton enchainement trouvé au 2 et si ça marche t'as gagné.

**frp31** · 13/09/2008, 20h22

voilà la solution basique :
expression détaillée qu'une fois comprise tu réduira bien sur à sa syntaxe normale

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
francois@3EPC:~$ cat test && sed -i '/<head>/,/<\/head>d;s/>/>\n/g;s/<.....>//g;s/<....>//g;s/<...>//g;s/<..>//g;s/<......>//g;s/<.......>//g' test && cat test
<html><head><title>Vous Etes Perdu ?</title></head><body><h1>Perdu sur l'Internet ?</h1><h2>Pas de panique, on va vous aider</h2><strong><pre>    * <----- vous &ecirc;tes ici</pre></strong></body></html>
 
 
 
Vous Etes Perdu ?
 
 
 
Perdu sur l'Internet ?
 
Pas de panique, on va vous aider
 
 
    * <----- vous &ecirc;tes ici
 
 
 
 
francois@3EPC:~$

ce qui converti bien le code source de http://www.perdu.com en vulgaire texte

**Belmondo** · 13/09/2008, 21h30

Envoyé par Sve@r

...

Donc pour bien y arriver, faut le faire par étapes
1) tu récupères ta page avec wget et tu la stockes dans un fichier de travail (pour bien pouvoir l'examiner)
...

J'ai installé wget, et j'ai commencé à regarder à quoi ça ressemble, ça parrait presque magique qu'un tel programme existe en ligne de commande

Bref, j'en suis là : je tape ce code

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

./wget -p http://www.google.fr/search?hl=fr&safe=off&q=cinema&btnG=Rechercher&meta=

Le problème est le suivant : pour une raison que je saisi mal, wget est redirigé vers la page d'accueil de google, ce qui se traduit je pense par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
Location: http://www.google.fr/webhp?source=ig [following]
--21:21:00--  http://www.google.fr/webhp?source=ig
           => `www.google.fr/webhp?source=ig'
Connecting to www.google.fr[209.85.135.147]:80... connected.
HTTP request sent, awaiting response... 200 OK

Comment puis-je expliquer à wget qu'il doit se cantonner à la page qui est sous le lien que je lui indique ? J'ai cherche dans "--help" (c'est d'ailleurs comme ça que j'ai trouvé l'option "-p") mais je ne vois rien de la sorte

Envoyé par frp31

voilà la solution basique :
expression détaillée qu'une fois comprise tu réduira bien sur à sa syntaxe normale

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
francois@3EPC:~$ cat test && sed -i '/<head>/,/<\/head>d;s/>/>\n/g;s/<.....>//g;s/<....>//g;s/<...>//g;s/<..>//g;s/<......>//g;s/<.......>//g' test && cat test
<html><head><title>Vous Etes Perdu ?</title></head><body>
...
francois@3EPC:~$

ce qui converti bien le code source de http://www.perdu.com en vulgaire texte

Ce sera pour la suite, merci

Pour la petite histoire je connais bien cette page, elle m'a beaucoup amusé le jour où je suis tombé dessus pour la première fois.

**Alain.g** · 14/09/2008, 08h07

Bonjour

Installer wget ? je pensais qu'il était disponible par défaut dans toute distribution linux

Sinon, pour récupérer une page html en texte dans un fichier, je ne te conseille pas de passer par sed. Il y a plus simple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

w3m -dump 'http://www.perdu.com/' > fichier.txt

On peut faire la même chose avec lynx

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

lynx -dump 'http://www.perdu.com/' > fichier.txt

ou encore wget plus un programme pour convertir le html en txt:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

wget -qO- 'http://www.perdu.com/' | html2text > fichier.txt

ma préférence va à w3m

Par rapport au dernier message, il faut protéger l'url par des guillemets.
Par ailleurs google cherche à éviter les scripts et se base notamment sur l'user-agent pour rejeter wget et d'autres. On est obligé de faire passer wget pour autre chose, par exemple comme cela : wget -U ""
Mais de toute façon Google détecte très vite les requêtes automatisées et dans ce cas tu auras bientôt droit à un captcha pour vérifier que tu n'es pas un robot...

**Belmondo** · 14/09/2008, 15h31

Envoyé par Alain.g

Bonjour

Installer wget ? je pensais qu'il était disponible par défaut dans toute distribution linux

[...]

En fait, à l'école je suis sous linux, mais chez moi je suis sous Mac. Mais comme OS X est entièrement basé sur Unix, ça passe inaperçu au niveau du terminal. Par contre certaines applications ne sont pas installées.

J'ai essayé

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

wget -U -qO- 'http://www.perdu.com/' | html2text > fichier.txt

ça me fais un fichier "fichier.txt" vide et un autre fichier avec la page téléchargée directement lisible par un navigateur, mais pas du tout sous forme de texte puisqu'il y a toutes les balises.
Est-ce que w3m enlève toutes les balises html ou est-ce que de toutes façon il y aura l'étape 2) de Sve@r à effectuer ?

Merci à tous, je continue de chercher moi aussi

**Alain.g** · 14/09/2008, 15h40

oui "w3m -dump" enlève le balisage html, tout comme "lynx -dump" ou html2text...

par ailleurs ça serait wget -U "" -qO- et non wget -U -qO-
Il ne faut surtout pas oublier les guillemets vides ! ou alors mettre quelque chose, du style wget -U "Mozilla/5.0"

Par contre si w3m, lynx ou html2text ne sont pas installés, ça ne sert à rien d'essayer...

**Belmondo** · 14/09/2008, 17h02

Envoyé par Alain.g

Par contre si w3m, lynx ou html2text ne sont pas installés, ça ne sert à rien d'essayer...

C'est donc ça

Je ne comprenais ce que ce signifiait html2text. Une option de wget qui n'apparaitrais pas dans l'aide,

.
Mais c'est en fait un autre programme. Je suppose donc que le | signifie qu'il faut faire appel à un autre programme ?

J'aurais peut-être la réponse à toutes ces questions dans 6 ou 10 mois quand le chapitre sera fini, mais j'ai envie de découvrir autrement

Merci

**frp31** · 14/09/2008, 19h49

a oui j'avais même pas pensé à ça....

**Sve@r** · 15/09/2008, 14h38

Envoyé par Belmondo

Je suppose donc que le | signifie qu'il faut faire appel à un autre programme ?

Il s'agit ici du principe de base à la prog Unix. Chaque programme, s'il a une info à récupérer, la récupère au clavier. Et s'il a une info à écrire, il l'écrit à l'écran
Exemple: tu tapes ça en direct:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
wc
Hello
<CTRL-D>

Résultat: 1 1 5

La commande "wc" (Word Count) te compte le nb de lignes, de mots et de caractères de ce qui lui est entré au clavier et affiche son résultat à l'écran

Ensuite, grace au pipe (|), tu peux renvoyer le résultat de la commande 1 (l'écran) dans l'entrée de la commande 2 (le clavier). A ce moment là, ce que la commande 1 affiche ben ce n'est plus affiché mais ça devient la data qui sera traitée par la commande 2. Et le résultat de la commande 2 est bien entendu affiché à l'écran (sauf si on le redirige de nouveau via pipe sur une commande 3 etc etc)

Exemple: Compter le nb de fichiers présents dans ton répertoire

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ls |wc -l

Tout ce que "ls" affiche (la liste de fichiers) sera traité par wc à qui on a demandé de ne compter que les lignes (option -l). Comme "ls" affiche un fichier par ligne, si tu comptes les lignes tu as le nb de fichiers.

Une fois le principe bien compris, tu peux quasiment tout construire. Chaque programme Unix ne fait qu'une chose mais en les emboitants comme des lego, tu arrives à créer des outils puissants

Exemple: afficher tous les fichiers avec leurs droits, mais sans afficher le droit "x", le tout converti en majuscule et trié en ordre inverse (exemple vraiment inutile mais j'essaye de trouver un truc bien compliqué pour avoir beaucoup de commandes)
Donc pour afficher les fichiers ce sera "ls -l"
Pour masquer le droit "x", on pourra utiliser "sed" en lui demandant de remplacer chaque "x" par "-"
Pour la conversion en majuscules, "tr" le fait très bien
Pour le tri, la commande "sort" est toute indiquée

Ca donnera

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ls -l |sed -e "s/x/-/g" |tr '[:lower:]' '[:upper:]' |sort -r

Ensuite, à toi de jouer. Dès que t'as un gros algo de traitement à effectuer, tu essayes (avec tes connaissances des commandes dispo), de trouver comment tu peux maniper ta data input pour générer ta data output au format voulu. Et si, au pire, il te manque une commande, ben rien ne t'empêche de la créer toi-même en C (ou autre). Tu lui fais juste lire ses infos au clavier (stdin) et écrire ses résultats à l'écran (stdout) et ensuite tu pourras l'imbriquer au milieu des autres.

**Belmondo** · 15/09/2008, 15h59

Merci pour la petite explication, je vais essayer pas l'oublier trop vite

Me voilà en fait à l'école, et bonne nouvelle wget est installé, mais ni w3m ni html2text.

J'ai fais un petit test sur le site de html2text avec une page de google et apparemment google n'est pas content

Je me suis donc dis : pas la peine de s'embêter, passons à w3m. J'ai donc essayé d'installer w3m, sauf que lorsque je lance ./configure J'obtiens rapidement le message

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
checking GC library exists... yes
checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking GC header location... /usr /usr/local /user/malleta
checking /usr/include... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /usr/include/gc... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /usr/local/include... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /usr/local/include/gc... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /user/malleta/include... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /user/malleta/include/gc... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
configure: error: gc.h not found

N'étant pas complètement idiot je me suis dis "OK, il cherche le fichier gc.h"

J'ai donc téléchargé la dernière version (7.0) de gc et j'ai déplacé le fichier gc.h situé dans le dossier include vers le dossier /user/malleta/include. En somme j'ai créé un dossier include à la racine de mon compte et j'y ai mis le fichier gc.h (J'ai fais un petit coup de chmod 777 histoire de pas avoir de problème de ce côté) et j'ai relancé ./configure en me disant, quand il arrivera à la ligne

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

checking /user/malleta/include/gc... checking gc.h usability... no

il trouvera le fichier. Mais non

1) Même en agrandissant la fenêtre de la console, il me laisse des ... ce qui fait que ça se trouve il cherche dans include/gc-7.0/gc.h mais que moi je crois qu'il cherche include/gc.h

2) Je vois pas ...

Je présice que je suis à l'école (cette fois ci) et donc que je ne peux rien copier sur la machine, je dois tout copier sur mon compte (malleta)

Merci de votre patience

Edit : J'ai aussi essayé de créer un dossier w3m sur mon bureau, dans lequel j'ai mis le dossier include, dans lequel j'ai mis le fichier gc.h, puis j'ai lancé

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

./configure --prefix=/nfs/user/eleve/i1/malleta/Desktop/w3m

Mais c'est pareil

**Sve@r** · 15/09/2008, 19h50

Envoyé par Belmondo

Merci pour la petite explication, je vais essayer pas l'oublier trop vite

Me voilà en fait à l'école, et bonne nouvelle wget est installé, mais ni w3m ni html2text.

J'ai fais un petit test sur le site de html2text avec une page de google et apparemment google n'est pas content

Je me suis donc dis : pas la peine de s'embêter, passons à w3m. J'ai donc essayé d'installer w3m, sauf que lorsque je lance ./configure J'obtiens rapidement le message

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
checking GC library exists... yes
checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking GC header location... /usr /usr/local /user/malleta
checking /usr/include... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /usr/include/gc... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /usr/local/include... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /usr/local/include/gc... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /user/malleta/include... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
checking /user/malleta/include/gc... checking gc.h usability... no
checking gc.h presence... no
checking for gc.h... no
configure: error: gc.h not found

N'étant pas complètement idiot je me suis dis "OK, il cherche le fichier gc.h"

J'ai donc téléchargé la dernière version (7.0) de gc et j'ai déplacé le fichier gc.h situé dans le dossier include vers le dossier /user/malleta/include. En somme j'ai créé un dossier include à la racine de mon compte et j'y ai mis le fichier gc.h (J'ai fais un petit coup de chmod 777 histoire de pas avoir de problème de ce côté) et j'ai relancé ./configure en me disant, quand il arrivera à la ligne

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

checking /user/malleta/include/gc... checking gc.h usability... no

il trouvera le fichier. Mais non

1) Même en agrandissant la fenêtre de la console, il me laisse des ... ce qui fait que ça se trouve il cherche dans include/gc-7.0/gc.h mais que moi je crois qu'il cherche include/gc.h

2) Je vois pas ...

Je présice que je suis à l'école (cette fois ci) et donc que je ne peux rien copier sur la machine, je dois tout copier sur mon compte (malleta)

Merci de votre patience

Edit : J'ai aussi essayé de créer un dossier w3m sur mon bureau, dans lequel j'ai mis le dossier include, dans lequel j'ai mis le fichier gc.h, puis j'ai lancé

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

./configure --prefix=/nfs/user/eleve/i1/malleta/Desktop/w3m

Mais c'est pareil

Bon, donc Maletta c'est ton nom

En effet, il manque "gc.h". Mais le problème d'un ".h" c'est qu'il ne fait pas partie de l'outil de base mais de l'outil de développement.

Bon, je vais essayer de résumer
Si t'as envie d'utiliser gimp, t'installes "gimp<plein de trucs>.rpm". Ca t'installe grosso-modo l'exécutable, la config, le man.
Si maintenant t'as envie de créer toi-même un logiciel qui utilise des outils de gimp, alors faut que t'installes "gimp-devel<plein de trucs>.rpm". Ca t'installera alors les headers contenant les déclaration des outils que tu peux utiliser (le suffixe "-devel" signifiant "développement"). Donc pour gc.h, il te faut pas "gc" mais "gc-devel". Va voir ce lien http://fr2.rpmfind.net//linux/RPM/fe...fc10.i386.html et descend jusqu'à ce que tu voies "FILES" en gras et descend juste en dessous...

Voilà. Faut maintenant que t'apprennes à utiliser les rpm car c'est aussi un très gros outils qui sert tout le temps pour tout ce qui est installation/désinstallation. Le problème, c'est que t'es pas sur ta machine donc tu peux pas installer gc-devel comme ça et ta tentative (certes ingénieuse) de descendre un répertoire chez-toi puis tenter de t'en servir comme support ne peut pas marcher parce que cela entrainerait une faille de sécurité pour le poste => si l'admin du poste n'a pas installé cet outil de développement, ça peut être aussi parce qu'il ne veut pas qu'on développe donc ça serait trop con (en terme de sécurité) si un simple user pouvait passer outre la règle de l'admin (ça mènerait à une situation comparable à zindow, avec virus et tout et tout).

Donc faut que t'ailles voir l'admin et que tu lui expliques que t'as besoin de w3m. Et s'il est pas trop tarte (et que c'est autorisé par son règlement), il l'installera lui-même (avec toutes les dépendances qui vont bien)...

**Alain.g** · 16/09/2008, 04h38

Envoyé par Belmondo

mais ni w3m ni html2text

Je ne l'avais pas précisé, mais entre les trois, il y a plus de chance que lynx soit installé. C'est un programme très ancien et bien connu.

**Belmondo** · 16/09/2008, 12h56

Envoyé par Alain.g

Je ne l'avais pas précisé, mais entre les trois, il y a plus de chance que lynx soit installé. C'est un programme très ancien et bien connu.

Non, il n'est pas installé lui non plus

Je crois que je vais donc installer linux sur ma machine perso le week-end prochain au moins ce sera fait !
Surtout qu'à l'école j'ai un autre problème (surement à cause des anti-virus et autre bêtises) wget s'arrête et ne fait plus rien quand il commence à vouloir télécharger

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
wget -p http://www.google.fr
--12:55:37--  http://www.google.fr/
           => `www.google.fr/index.html'
Resolving www.google.fr... 209.85.135.147, 209.85.135.104, 209.85.135.99, ...
Connecting to www.google.fr[209.85.135.147]:80...

Conclusion : à la semaine prochaine (j'ai pas les CD et pas de graveur sous la main)

Merci

**Alain.g** · 16/09/2008, 15h16

Ceci dit il est tout à fait possible d'installer lynx sous mac, de même que html2text (w3m je n'ai pas vérifié).

Sinon avec uniquement wget sous le main, on peut passer un convertisseur en ligne : http://cgi.w3.org/cgi-bin/html2txt
Exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

wget -O perdu.txt 'http://cgi.w3.org/cgi-bin/html2txt?url=http://www.perdu.com'

Mais bon...

Pour mac :
http://www.apple.com/downloads/macos...ebbrowser.html
http://html2text.darwinports.com/

copier automatiquement une page web en fichier texte

Linux

Discussions similaires

Partager

Partager