IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

Python, urllib, récupération de données d'une page PHP


Sujet :

Réseau/Web Python

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2008
    Messages
    30
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 30
    Points : 16
    Points
    16
    Par défaut Python, urllib, récupération de données d'une page PHP
    Bonjour tout le monde,

    Dans le cadre de mon stage, je dois récupérer les données (textes, images) d'une ou plusieurs pages PHP (pages générées par le logiciel CACTI).

    Après quelques recherches, j'ai contasté que le module urllib pourrait être adapté à ma demande, cependant je ne sais pas si ce dernier permet récupérer des données d'une page PHP et c'est donc ma question.

    Un cours Python pour ça ?

    Je vous remercie pour vos réponses,

    Alexandre

  2. #2
    Membre régulier
    Profil pro
    Étudiant
    Inscrit en
    Janvier 2009
    Messages
    74
    Détails du profil
    Informations personnelles :
    Âge : 37
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2009
    Messages : 74
    Points : 88
    Points
    88
    Par défaut
    Pour faire une simple requête GET :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    import urllib2
    f = urllib2.urlopen("http://www.google.fr/")
    data = f.read()
    f.close()
    print data
    La bibliothèque urllib2 peut également gérer beaucoup d'autres choses comme l'authentification HTTP, les cookies, les proxies, etc.

    Ensuite, tout dépend de ce que tu veux faire. Il existe des bibliothèques pour faire du parsing HTML par exemple (HTMLParser par exemple).

    Et si tu veux savoir comment utiliser tout ça, il suffit de lire la documentation [1][2].

    [1] http://docs.python.org/library/urllib2.html
    [2] http://docs.python.org/library/htmlparser.html

    Pour apprendre facilement Python regarde ces tutoriels et cours de formation Python : http://python.developpez.com/cours/
    Pour bien apprendre Python suis ces tutoriels et cours de formation Python : http://python.developpez.com/cours/

  3. #3
    Membre émérite
    Avatar de DelphiManiac
    Homme Profil pro
    Homme à tout faire
    Inscrit en
    Mars 2002
    Messages
    1 147
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Homme à tout faire
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2002
    Messages : 1 147
    Points : 2 533
    Points
    2 533
    Par défaut
    Citation Envoyé par alexbts Voir le message
    Après quelques recherches, j'ai contasté que le module urllib pourrait être adapté à ma demande, cependant je ne sais pas si ce dernier permet récupérer des données d'une page PHP et c'est donc ma question.
    urllib permets de récupérer du contenu HTML à partir d'une URL.

    Tout comme un navigateur classique, urllib ne se préoccupe pas de savoir si le contenu est du HTML statique ou généré par un langage coté serveur. En gros que la page provienne d'un fichier HTML servi directement par apache, de PHP, de Python, de n'importe quoi, ce sera toujours du HTML que urllib pourra lire et récupérer. A toi après de parser ce HTML pour en obtenir les informations recherchés.
    Si ce message vous a semblé utile, il est possible qu'il soit utile à d'autres personnes. Pensez au . Et n'oubliez pas le le moment venu !

    On n'a pas à choisir si l'on est pour ou contre la décroissance, elle est inéluctable, elle arrivera qu'on le veuille ou non.

  4. #4
    Membre régulier
    Profil pro
    Étudiant
    Inscrit en
    Janvier 2009
    Messages
    74
    Détails du profil
    Informations personnelles :
    Âge : 37
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2009
    Messages : 74
    Points : 88
    Points
    88
    Par défaut
    Et pour info, il est conseillé d'utiliser urllib2.openurl() à la place d'urllib.urlopen() puisque cette dernière n'est plus disponible dans Python 3.0 :
    Also note that the urllib.urlopen() function has been removed in Python 3.0 in favor of urllib2.urlopen().

  5. #5
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2008
    Messages
    30
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 30
    Points : 16
    Points
    16
    Par défaut
    Merci vos réponses.

    ps : Desintegr, tu n'utiliserais pas Fedora par hasard ?

  6. #6
    Membre régulier
    Profil pro
    Étudiant
    Inscrit en
    Janvier 2009
    Messages
    74
    Détails du profil
    Informations personnelles :
    Âge : 37
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2009
    Messages : 74
    Points : 88
    Points
    88
    Par défaut
    Non, mais je suis déjà passé sur le forum fedora-fr

  7. #7
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2008
    Messages
    30
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 30
    Points : 16
    Points
    16
    Par défaut
    Ah ba oui, je me disais bien aussi !

  8. #8
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2008
    Messages
    30
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 30
    Points : 16
    Points
    16
    Par défaut
    Bonjour,

    Je cherche à me connecter à une page (celle-ci : http://***************/cacti/graph_view.php?) mais tout d'abord il faut passer par cette page http://***************/cacti/index.php pour s'authentifier. Après quelques recherche je suis arrivé à ce code :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    import urllib2
     
    password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
     
    password_mgr.add_password(None, "http://**********/cacti", "********", "***********")
     
    handler = urllib2.HTTPBasicAuthHandler(password_mgr)
     
    opener = urllib2.build_opener(handler)
     
    opener.open("http://***************/cacti/graph_view.php?action=tree&tree_id=1&leaf_id=7&select_first=true")
     
    urllib2.install_opener(opener)
     
    f = urllib2.urlopen("http://************/cacti/graph_view.php?action=tree&tree_id=1&leaf_id=7&select_first=true")
     
    data = f.read()
     
    f.close()
     
    print data
    Malheuresement à l'éxécution du programme il me sort :

    File "/usr/lib64/python2.5/urllib2.py", line 387, in open
    response = meth(req, response)
    File "/usr/lib64/python2.5/urllib2.py", line 498, in http_response
    'http', request, response, code, msg, hdrs)
    File "/usr/lib64/python2.5/urllib2.py", line 419, in error
    result = self._call_chain(*args)
    File "/usr/lib64/python2.5/urllib2.py", line 360, in _call_chain
    result = func(*args)
    File "/usr/lib64/python2.5/urllib2.py", line 572, in http_error_302
    self.inf_msg + msg, headers, fp)
    urllib2.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.
    The last 30x error message was:
    Found
    Je ne comprends pas pourquoi l'authentification ne s'effectue pas...

    Merci d'avance pour vos conseils

  9. #9
    Membre émérite
    Avatar de DelphiManiac
    Homme Profil pro
    Homme à tout faire
    Inscrit en
    Mars 2002
    Messages
    1 147
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Homme à tout faire
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2002
    Messages : 1 147
    Points : 2 533
    Points
    2 533
    Par défaut
    Ne connaissant pas particulièrement urllib2, il me semble tout de même que les méthodes que tu utilises pour l'authentification s'attendent à ce que ce soit une authentification de type 'htaccess'. Celle qui demande un user et un password dans une fenêtre spécifique du navigateur.

    La plupart des sites utilisent un formulaire classique pour l'authentification avec un "post" des données saisies, vérification coté serveur des droits et retour d'un token stocké dans un cookie.

    Ne sachant pas comment fonctionne le site que tu essayes d'attaquer, il faudrait être sûr de la méthode d'authentification utilisé.
    Si ce message vous a semblé utile, il est possible qu'il soit utile à d'autres personnes. Pensez au . Et n'oubliez pas le le moment venu !

    On n'a pas à choisir si l'on est pour ou contre la décroissance, elle est inéluctable, elle arrivera qu'on le veuille ou non.

  10. #10
    Membre régulier
    Profil pro
    Étudiant
    Inscrit en
    Janvier 2009
    Messages
    74
    Détails du profil
    Informations personnelles :
    Âge : 37
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2009
    Messages : 74
    Points : 88
    Points
    88
    Par défaut
    Je pense, comme DelphiManiac, qu'il ne s'agit pas d'une authentification HTTP mais d'un simple formulaire HTML qui envoie le login/mot de passe et que l'on trouve sur la plupart des sites.

    Il existe des bibliothèques pour gérer facilement ce genre d'authentification.
    Il y a par exemple mechanize [1] (basé sur urllib2) pour faire ça.

    [1] http://wwwsearch.sourceforge.net/mechanize/

Discussions similaires

  1. Récupération de données d'une page PHP
    Par RV_2012 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 1
    Dernier message: 20/05/2012, 20h39
  2. récupération de données sur une page web
    Par tomkiki dans le forum Web & réseau
    Réponses: 2
    Dernier message: 26/10/2009, 08h38
  3. Récupération de données dans une page HTML
    Par MadMakII dans le forum VBA Access
    Réponses: 2
    Dernier message: 30/11/2008, 23h00
  4. Réponses: 6
    Dernier message: 12/08/2007, 11h10
  5. Récupération du résultat d'une page php
    Par nabab dans le forum Langage
    Réponses: 4
    Dernier message: 09/03/2007, 19h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo