recupérer arborescence et contenu d'un site

**sakura.sou** · 13/07/2009, 04h30

salut à tous,

Je dois récupérer le contenu html d'un site web à partir de l'url en python, pour faire ça, j'ai pensé à d'abord récupérer l'arborescence du site, puis faire une boucle afin de récupérer le contenu html à partir des liens, mais en python , je ne sais pas comment le faire

.

merci d'avance

**pacificator** · 13/07/2009, 09h41

Dans le principe il suffit de récuperer la page web puis d'extraire (regex?) et d'analyser (lien interne, externe) les liens hypertextes contenus dans la page puis de les télecharger et de recommencer ...

Mais ce que tu veux existe déjà, c'est un aspirateur de site et tu trouveras facilement ça sur

**sakura.sou** · 13/07/2009, 12h23

je c'est que les aspirateurs de site existent, mais moi je dois réaliser ça en python, et pour récupérer l'arborescence à partir d'un lien, je ne vois pas comme faire ça.

**eyquem** · 18/07/2009, 19h51

Salut,

Ton objectif n’est pas assez bien défini pour qu’on sache comment t’aider.

S’agit-il:

- de ne s’intéresser qu’à un seul site, et d’écrire un code qui sera capable de récupérer les contenus de toutes les pages du site, en suivant tous les liens trouvés dans chaque page ?
Un tel objectif pourrait être motivé par le fait que récupérer à la main les contenus serait trop long, ou que des mises à jour fréquentes rendrait vite fastidieuse l’acquisition des contenus nouveaux.

- ou de concevoir un programme général apte à capturer le contenu de n’importe quel site, c’est à dire capable de s’adapter à toutes les particularités d’un site inconnu a priori ?
Autrement dit, c’est vouloir faire un aspirateur de site.

Il est clair que le premier objectif semble plus facilement atteignable parce qu’on pourrait se permettre des facilités du fait que la structure du site serait plus stable que la structure non préalablement connue de n’importe quel site.

Personnellement, avec une adresse URL, la seule première chose que je sache faire est la suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
import urllib
 
url = 'http://fr.wikipedia.org/wiki/Max_Peck'
sock = urlib.urlopen(url)
ch = sock.read()
sock.close()

Une fois le code-source de la page enregistré dans la chaîne ch, je peux lancer tous les traitements que je veux.

- Pour ma part, je sais exactement ce que je veux dans les pages que je capte et je ne recherche pas des liens. J’exploite chaque code-source en l’analysant avec des regex et des méthodes de string. Je ne connais donc pas très bien les parsers.

- Mais pour ce qui te concerne, si tu veux d’abord établir l’arborescence du site, il te faut traiter les pages avec un parser, en commençant par la première.
Beautiful Soup est un parser de code HTML qui devrait te permettre de faire ce préalable.
C’est à dire qu’une fois le code-source d’une page mis dans une chaîne ch, tu donnes ch en patûre au parser et tu le règles pour qu’il te sorte tous les liens dans la pge. Ça devrait marcher comme ça si j’ai bien compris à quoi sert un parser.

**wiztricks** · 19/07/2009, 19h01

Ben c'est un processus récursif puisque chaque page va lister les pages suivantes dans les 'anchors'/liens.

Ensuite, il te faut établir si elles sont locales ou déjà visitées.
'déjà visité' peut signifier stocker les pages sur disque.

A la base c'est pas très compliqué mais dans la pratique tu verras qu'il y a plein de pièges qui risquent de remplir le disque ou de faire des boucles.

Pour trouver les 'anchors'/liens, tu peux utiliser HTMLparser de htmllib: feed, close et return de anchorlist

Voir http://cis.poly.edu/cs912/parsing.txt pour des exemples.

Regardes ce que remonte Google avec python crawler.py ou spider.py... ils pourront t'inspirer à défaut de te plaire
- W

**Jannus** · 19/07/2009, 20h26

Bonjour,

Le but de ce forum est d'aider les personnes en difficulté, pas de faire leur code.
Si tu as fait un code et si tu as un problème avec ce code, poste le et on verra pour t'aider à le faire fonctionner

**sakura.sou** · 20/07/2009, 10h32

merci bien,

j'ai utilisé plusieurs librairies, parmi celles qui marchent, il y a lswww, le code est comme suit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
import lswww
lw=lswww.lswww('http://www.monsite.com/')
lw.setTimeOut(1)
lw.go()
lw.printLinks()

mais le problème c'est que je trouve la récupération est trop lente, donc si quelqu'un peut m'aider à le faire plus rapidement svp.pour la récupération de la page html le code est comme suit (il marche):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
import urllib2
import BeautifulSoup
 
myUrl="http://www.monsite.com/"
myPage=urllib2.urlopen(myUrl)
mypageBuffer=myPage.read()
myPage.close()
mySoup=BeautifulSoup.BeautifulSoup(mypageBuffer)
print mySoup.prettify()

maintenant le truc c'est que je c'est pas comment coller les deux code, pour récupérer le code html du site en entiers, mettre les résultats du premier code dans une liste, un dico...

merci à l'avance.

recupérer arborescence et contenu d'un site

Réseau/Web Python

Discussions similaires

Partager

Partager