IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

chargement page complete urllib2


Sujet :

Réseau/Web Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Décembre 2012
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2012
    Messages : 3
    Par défaut chargement page complete urllib2
    Bonjour, je cherche la solution à mon problème et je ne sais pas trop où chercher, pour illustrer mon problème j'ai écrit ce petit bout d'code
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    import urllib2, re
    url_archive = raw_input("Adresse du tumblr ?")
    html_archive = urllib2.urlopen(url_archive + "/archive").read()
    filtre = re.compile(url_archive + '/post/([0-9]+)')
    for post in filtre.findall(html_archive):
    	print post
    je veux donc connaitre tout les post qui sont dans les archives d'un tumblr par exemple, ça marche comme je veux SAUF que je n'obtiens qu'une cinquantaine de post, quand on ouvre les archives d'un tumblr avec un un explorateur internet classique les 50 premier post sont chargés et le reste est chargé lorsqu'on fait défiler la page, je sais pas trop comment expliquer mais j'espère que vous comprendrez
    bref j'aurais voulu savoir comment faire pour pouvoir charger la page entière en simulant le scrolling ou je ne sais comment, merci d'avance.

  2. #2
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 762
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 762
    Par défaut
    Salut,

    le .read d'urlopen ne retournera pas plus de "rows" que le serveur voudra bien expédier.
    Et si associe a l'URL il y a des milliers de posts a retourner il ne retournera qu'une "page" contenant N posts:
    • économie de la bande passante réseau,
    • moins de stress cote CPU/mémoire et disques durs,
    • le navigateur qui "affiche" le résultat ne pourra pas en afficher plus,...


    Si vous voulez récupérer le "reste", il faudra:
    • simuler les coups de clics "page suivante",
    • trouver une API plus conviviale cote "programmation" (cote serveur)


    Pour les coups de clics, il faut plutôt utiliser une biblio. comme Mechanize.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Décembre 2012
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2012
    Messages : 3
    Par défaut
    Simuler un clic je ne peux pas, la page se charge automatiquement quand on est en bas de cette dite page, merci pour Mechanize je ne connaissais pas je vais regarder si ça peut m'aider.

    edit: j'ai trouvé un site qui propose entre autres ce dont j'ai besoin mais ça ne m'aide pas vraiment
    http://boutofcontext.com/tumblr_backup.php

  4. #4
    Membre averti
    Profil pro
    Inscrit en
    Mars 2003
    Messages
    13
    Détails du profil
    Informations personnelles :
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations forums :
    Inscription : Mars 2003
    Messages : 13
    Par défaut
    Dans ce cas là le mieux c'est de reproduire la requête HTTP que la page envoie au serveur pour récupérer la suite.

    Pour voir ce qui est envoyé au serveur tu peux utiliser les outils de développement Web de firefox >> l'onglet réseau, tu verras ainsi en temps réel les requêtes qui sont reçues et envoyées au serveur.

    Exemple avec ce site http://gorimbaud.tumblr.com/ on voit que le défilement appelle le contenu suivant avec un simple GET /page/X (X numéro de page) (cf capture) on pourrait donc récuperer les différentes page de ce site avec http://gorimbaud.tumblr.com/page/2, http://gorimbaud.tumblr.com/page/3 etc.

    Après sur ton site c'est peut être différent mais le principe reste le même, identifier la requête qui appelle la suite du contenu et la reproduire avec urllib2 ou requests qui est une bibli bien sympathique pour exécuter les requêtes HTTP.

    Nom : defilement.png
Affichages : 123
Taille : 586,0 Ko

  5. #5
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Décembre 2012
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2012
    Messages : 3
    Par défaut
    Merci beaucoup pour tes conseils, dès que j'ai un moment de libre je vais tester ça et je vous tiens au courant.

Discussions similaires

  1. Chargement Page + DIV
    Par Seth77 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 6
    Dernier message: 04/07/2006, 20h57
  2. [SWISH] Pb entre chargement de l'anim et chargement page
    Par auryn111 dans le forum EDI/Outils
    Réponses: 2
    Dernier message: 24/02/2006, 11h16
  3. chargement pages php + cache navigateur
    Par grinder59 dans le forum Langage
    Réponses: 6
    Dernier message: 06/10/2005, 14h44
  4. [Tableaux] Chargement pages dynamique
    Par pittacos dans le forum Langage
    Réponses: 4
    Dernier message: 21/09/2005, 10h41
  5. fenetre sans bords pour attente chargement page
    Par k4eve dans le forum Général JavaScript
    Réponses: 3
    Dernier message: 30/11/2004, 10h17

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo