IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

Presser un bouton d'une page web et récupérer le résultat


Sujet :

Réseau/Web Python

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Août 2007
    Messages
    42
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 42
    Points : 24
    Points
    24
    Par défaut Presser un bouton d'une page web et récupérer le résultat
    Salut à tous,

    Je cherche à savoir en python comment peut-on presser un bouton sur une page web qui actionne une fonction javascript qui lance le téléchargement d'un fichier. Je cherche juste à récupérer le fichier obtenu par pression du bouton.

    J'ai regardé avec urllib mais je ne trouve pas mon bonheur. Je cherche une solution sous environnement UNIX.

    Merci par avance,

    Mister

  2. #2
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    Peux-tu préciser l'intérêt de la manipe.
    Tu presses le bouton le fichier est téléchargé il est donc disponible pour le client et python peut le traiter.
    Où se situe le problème ?
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  3. #3
    Membre à l'essai
    Profil pro
    Inscrit en
    Août 2007
    Messages
    42
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 42
    Points : 24
    Points
    24
    Par défaut
    j'ai besoin de récupérer un fichier sur un site toutes les semaines pour une mise à jour d'une banque de données protéiques. Toutefois, ce doit être fait automatiquement.
    Je ne sais pas en python comment simuler un clique qui actionne un fonction js et récupérer le fichier en téléchargement. Je peux poster le site si vous désirez c'est un site publique de données scientifiques.

    Mister

  4. #4
    Expert éminent
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    3 843
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 3 843
    Points : 7 151
    Points
    7 151
    Par défaut
    Bonsoir,

    Avez-vous des bases en python?

    Quelle version utilisez-vous? Sous windows ou linux?

    Est-ce que cela doit-être fait obligatoirement graphiquement, où puisse fonctionner en mode console?
    Celui qui trouve sans chercher est celui qui a longtemps cherché sans trouver.(Bachelard)
    La connaissance s'acquiert par l'expérience, tout le reste n'est que de l'information.(Einstein)

  5. #5
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    j'ai besoin de récupérer un fichier sur un site toutes les semaines pour une mise à jour d'une banque de données protéiques. Toutefois, ce doit être fait automatiquement.
    Je ne sais pas en python comment simuler un clique qui actionne un fonction js et récupérer le fichier en téléchargement.
    J'ai fait cela il y a quelque temps pour un 'pillage d'annuaire' on simule, par exemple, qu'on ouvre les 'pages jaunes' et qu'on sélectionne une rubrique professionnelle disons les agences immobilières puis on récupère le fichier envoyé en retour pour enrichir une base de données.
    Il faut, pour faire cela à moindre frais, utiliser des bibliothèques.
    Voici mon code commenté qui pourra vous inspirer.
    NB: Ce code fonctionnait sous python 2.5 environnement windows XP. N'en ayant pas eu l'utilité je ne l'ai pas mis à jour, mais il est clair que vous aurez des adaptations à faire en fonction de la version de python utilisée, de la compatibilité des bibliothèque et de la plateforme.
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    #!/usr/bin/python
     
    """capture des pages jaunes de l'annuaire avec mechanize et Beautiful soup"""
    """détecte les agences ayant une adresse mail et pas de site"""
    import re
    import codecs
    from mechanize import Browser
    from BeautifulSoup import BeautifulSoup
     
    #la rubrique cherchée
    rubrique = "Agences immobilieres"
    """Liste des codes des 97 departements francais"""
    Depts=[str(i) for i in range(1,98)]
    br = Browser()
    for dep in Depts[61:62]:
        """Dans ce cas on ne traite que le departement du Pas de Calais=62
        Pour la France entiere Depts[0:]"""
        page=1
        print "page en traitement =",page
        csv_file = open(dep+'.csv', 'w') #ouverture d'un fichier pour stocker les resultats
        csv_file.write( codecs.BOM_UTF8 )    
        br.open("http://www.pagesjaunes.fr") # ouverture du site des pages jaunes
        forms=br.forms() #recherche de tous les formulaires
        form2=[forms.next() for i in range(0,3)][2] #celui qui nous interesse (firebug)
        form2.name="any" #on le nomme pour selection
        c1=form2.find_control(type="text",id="quoiqui") #rubrique professionnelle
        c1.value=rubrique # ce qu'on cherche (la variable globale rubrique)
        c2=form2.find_control(type="text",id="PJ_ou")
        c2.value=dep #le numero du departement
        br.select_form(name="any")
        response2 = br.submit() #renvoyer le questionnaire rempli
        """Traitement de la premiere page"""
        soup=BeautifulSoup(response2.read()) #appel du parser sur la reponse
        List=soup.findAll("li","N2_bloc_parution") # recherche sur style CSS des resultats
        ListPossiblesWeb=br.links(url_regex="Redirection") #recherche des liens cryptes
        CandidatsWeb=[link for link in ListPossiblesWeb if ('title','Site Web') in link.attrs] #ceux qui correspondent aux sites cryptes
        indexweb=0
        for liste in List:
            raison=unicode(liste.find("h5","N4_bloc_parution_raison sclear").contents[2][6:]) #le nom de l'agence
            adresse=unicode(liste.find('p',"N5_bloc_parution_adresse").contents[0][3:]) #son adresse
            telephones=liste.find("ul","N6_bloc_parution_communication_div") #la liste de tous les numeros
            telephone=unicode(telephones.find("strong").contents[0][1:])#le telephone
            try:
                blocsite=liste.find("ul","N4_bloc_parution_produits_pub") #recherche de l'annonce d'un site
                anchor=blocsite.find("a")
                siteweb=CandidatsWeb[indexweb] #OK il y a bien un site
                indexweb+=1 #incrementer l'index
                try:
                    br.follow_link(siteweb) #suivre le lien crypte
                    ressweb=br.response()
                    adweb=ressweb.geturl() #on recupere l'adresse decryptee du site
                except:
                    adweb=u""
                br.back() #retour a la page precedente
            except: #en cas d'echec
                adweb=u""
            try:
                blocmail=liste.find("p","N5_bloc_parution_mail")
                mail=blocmail.find("a").contents[0]
            except:
                mail=u""
     
            """Ecriture des resultats extraits"""
            raison=u'"'+raison+u'"'
            adresse=u'"'+adresse+u'"'
            telephone=u'"'+telephone+u'"'
            adweb=u'"'+adweb+u'"'
            mail=u'"'+mail+u'"'
            if mail!=u'""' and adweb==u'""':
                csv_file.write( raison.encode('utf-8') )
                csv_file.write(u";".encode('utf-8'))
                csv_file.write( adresse.encode('utf-8') )
                csv_file.write(u";".encode('utf-8'))
                csv_file.write( telephone.encode('utf-8') )
                csv_file.write(u";".encode('utf-8'))
                csv_file.write( mail.encode('utf-8') )
                csv_file.write(u";".encode('utf-8'))        
                csv_file.write( adweb.encode('utf-8') )
                csv_file.write(u"\n".encode('utf-8'))
     
        """Traitement des autres pages (pages suivantes)jusqu'a epuisement"""
        while True:
            page+=1
            print "page en traitement =",page #pour voir l'avancement du travail
            try:
                Liens=[link for link in br.links() if  ('class','page_suivante') in link.attrs]
                next=Liens[0]
                br.follow_link(next)
                response3=br.response()
                soup=BeautifulSoup(response3.read())
                List=soup.findAll("li","N2_bloc_parution")
                ListPossiblesWeb=br.links(url_regex="Redirection") #recherche des liens cryptes
                CandidatsWeb=[link for link in ListPossiblesWeb if ('title','Site Web') in link.attrs] #ceux qui correspondent aux sites cryptes
                indexweb=0 
                for liste in List:
                    raison=unicode(liste.find("h5","N4_bloc_parution_raison sclear").contents[2][6:]) #le nom de l'agence
                    adresse=unicode(liste.find('p',"N5_bloc_parution_adresse").contents[0][3:]) #son adresse
                    telephones=liste.find("ul","N6_bloc_parution_communication_div") #la liste de tous les numeros
                    telephone=unicode(telephones.find("strong").contents[0][1:])#le telephone
                    try:
                        blocsite=liste.find("ul","N4_bloc_parution_produits_pub") #recherche de l'annonce d'un site
                        anchor=blocsite.find("a")
                        siteweb=CandidatsWeb[indexweb] #OK il y a bien un site
                        indexweb+=1 #incrementer l'index
                        try:
                            br.follow_link(siteweb) #suivre le lien crypte
                            ressweb=br.response()
                            adweb=ressweb.geturl() #on recupere l'adresse decryptee du site
                        except:
                            adweb=u""
                        br.back() #retour a la page precedente
                    except: #en cas d'echec
                        adweb=u""
     
                    try:
                        blocmail=liste.find("p","N5_bloc_parution_mail")
                        mail=blocmail.find("a").contents[0]
                    except:
                        mail=u""
     
                    """Ecriture des resultats extraits"""
                    raison=u'"'+raison+u'"'
                    adresse=u'"'+adresse+u'"'
                    telephone=u'"'+telephone+u'"'
                    adweb=u'"'+adweb+u'"'
                    mail=u'"'+mail+u'"'
                    if mail!=u'""' and adweb==u'""':
                        csv_file.write( raison.encode('utf-8') )
                        csv_file.write(u";".encode('utf-8'))
                        csv_file.write( adresse.encode('utf-8') )
                        csv_file.write(u";".encode('utf-8'))
                        csv_file.write( telephone.encode('utf-8') )
                        csv_file.write(u";".encode('utf-8'))                  
                        csv_file.write( mail.encode('utf-8') )
                        csv_file.write(u";".encode('utf-8'))
                        csv_file.write( adweb.encode('utf-8') )
                        csv_file.write(u"\n".encode('utf-8'))            
            except IndexError:#sortie de boucle quand le lien 'suivant' n'existe plus
                break
     
        csv_file.close() #fermeture du fichier des résultats avant de boucler
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  6. #6
    Membre chevronné

    Profil pro
    Account Manager
    Inscrit en
    Décembre 2006
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Account Manager

    Informations forums :
    Inscription : Décembre 2006
    Messages : 2 301
    Points : 1 752
    Points
    1 752
    Par défaut
    Bonjour,
    ayant pas mal de boulot informatique en ce moment, je ne pourrais pas m'attarder sur le code de zavoven pour en extraire les points importants. Si quelqu'un voit ce qui simule l'appui du bouton, ce serait pas mal d'extraire les lignes de code qui font cela.

  7. #7
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    response2 = br.submit() #renvoyer le questionnaire rempli
    NB: Le code suppose qu'on ait fait une étude préalable des pages chargées avec un outil d'analyse (type firebug). Il faut pouvoir isoler dans le DOM de la page reçue le formulaire qui nous intéresse. br.submit() simule l'envoi du questionnaire.
    De la même façon, en retour, l'analyse automatique suppose qu'on ait examiné la structure des pages envoyées pour extraire l'information utile.
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

Discussions similaires

  1. Bouton Ouvrir une page web
    Par d-Rek dans le forum Débuter avec Java
    Réponses: 0
    Dernier message: 07/12/2008, 11h21
  2. WinForm-Bouton: Ouvrir une page web
    Par lecyberax dans le forum Windows Forms
    Réponses: 5
    Dernier message: 01/08/2007, 18h17
  3. Envoyer des données POST à une page web puis récupérer l'URL
    Par Ze moi dans le forum Shell et commandes GNU
    Réponses: 3
    Dernier message: 23/04/2007, 17h18
  4. Surfer en C#, accès à un bouton d'une page WEB
    Par moihenry dans le forum C#
    Réponses: 3
    Dernier message: 08/04/2007, 17h39
  5. Comment Appuyer sur le bouton d'une page web...?
    Par Mayti4 dans le forum VB 6 et antérieur
    Réponses: 4
    Dernier message: 23/01/2005, 14h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo