chargement page complete urllib2

**voudoudin** · 30/09/2013, 23h19

Bonjour, je cherche la solution à mon problème et je ne sais pas trop où chercher, pour illustrer mon problème j'ai écrit ce petit bout d'code

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
import urllib2, re
url_archive = raw_input("Adresse du tumblr ?")
html_archive = urllib2.urlopen(url_archive + "/archive").read()
filtre = re.compile(url_archive + '/post/([0-9]+)')
for post in filtre.findall(html_archive):
	print post

je veux donc connaitre tout les post qui sont dans les archives d'un tumblr par exemple, ça marche comme je veux SAUF que je n'obtiens qu'une cinquantaine de post, quand on ouvre les archives d'un tumblr avec un un explorateur internet classique les 50 premier post sont chargés et le reste est chargé lorsqu'on fait défiler la page, je sais pas trop comment expliquer mais j'espère que vous comprendrez
bref j'aurais voulu savoir comment faire pour pouvoir charger la page entière en simulant le scrolling ou je ne sais comment, merci d'avance.

**wiztricks** · 01/10/2013, 17h22

Salut,

le .read d'urlopen ne retournera pas plus de "rows" que le serveur voudra bien expédier.
Et si associe a l'URL il y a des milliers de posts a retourner il ne retournera qu'une "page" contenant N posts:

économie de la bande passante réseau,
moins de stress cote CPU/mémoire et disques durs,
le navigateur qui "affiche" le résultat ne pourra pas en afficher plus,...

Si vous voulez récupérer le "reste", il faudra:

simuler les coups de clics "page suivante",
trouver une API plus conviviale cote "programmation" (cote serveur)

Pour les coups de clics, il faut plutôt utiliser une biblio. comme Mechanize.

- W

**voudoudin** · 01/10/2013, 21h17

Simuler un clic je ne peux pas, la page se charge automatiquement quand on est en bas de cette dite page, merci pour Mechanize je ne connaissais pas je vais regarder si ça peut m'aider.

edit: j'ai trouvé un site qui propose entre autres ce dont j'ai besoin mais ça ne m'aide pas vraiment
http://boutofcontext.com/tumblr_backup.php

**topic** · 02/10/2013, 21h47

Dans ce cas là le mieux c'est de reproduire la requête HTTP que la page envoie au serveur pour récupérer la suite.

Pour voir ce qui est envoyé au serveur tu peux utiliser les outils de développement Web de firefox >> l'onglet réseau, tu verras ainsi en temps réel les requêtes qui sont reçues et envoyées au serveur.

Exemple avec ce site http://gorimbaud.tumblr.com/ on voit que le défilement appelle le contenu suivant avec un simple GET /page/X (X numéro de page) (cf capture) on pourrait donc récuperer les différentes page de ce site avec http://gorimbaud.tumblr.com/page/2, http://gorimbaud.tumblr.com/page/3 etc.

Après sur ton site c'est peut être différent mais le principe reste le même, identifier la requête qui appelle la suite du contenu et la reproduire avec urllib2 ou requests qui est une bibli bien sympathique pour exécuter les requêtes HTTP.

Nom : defilement.png
Affichages : 123
Taille : 586,0 Ko

Nom : defilement.png
Affichages : 123
Taille : 586,0 Ko

**voudoudin** · 03/10/2013, 07h42

Merci beaucoup pour tes conseils, dès que j'ai un moment de libre je vais tester ça et je vous tiens au courant.

chargement page complete urllib2

Réseau/Web Python

Vue hybride

Discussions similaires

Partager

Partager