IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Rechercher (et extraire) les liens vers la page contact d'un site web [Python 3.X]


Sujet :

Python

  1. #1
    Candidat au Club
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Avril 2017
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 13
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information

    Informations forums :
    Inscription : Avril 2017
    Messages : 3
    Points : 3
    Points
    3
    Par défaut Rechercher (et extraire) les liens vers la page contact d'un site web
    Bonjour

    Débutant en python 3.6 et beautifulsoup je suis bloqué dans une fonction ou je passe une URL valide en paramètre.
    en gros, j'ouvre la page, je passe les paramètre à beautifulsooup
    je créé une liste dans laquelle j'écris tous les URL trouvés dans la page.
    ensuite j'e ne sais pas comment retrouver le lien contact dans la liste alors qu'il me l'affiche lorsque j'imprime la liste
    Ou est mon erreur ?

    voici le source :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    def TestContact(the_uri):
    # l'URL du site web est valide, on va chercher s'il existe un lien vers la page contact et retourner ce lien 
        html_page = urllib.request.urlopen(the_uri)
        soup = bs4.BeautifulSoup(html_page, 'html.parser')
        LinkList = []
        for Link in soup.find_all('a'):
            LinkFound=Link.get('href')
            LinkList.append(LinkFound)
        print ("nombre d'URL : ",len(LinkList))
        print (LinkList)
        chaine = "-".join(LinkList)    
     
        if ("contact" in chaine) :
            print ("URL Contact")
     
    return (URL_contact)

  2. #2
    Membre confirmé

    Homme Profil pro
    Bidouilleur
    Inscrit en
    Avril 2016
    Messages
    721
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bidouilleur

    Informations forums :
    Inscription : Avril 2016
    Messages : 721
    Points : 503
    Points
    503
    Billets dans le blog
    1
    Par défaut
    Pour ma part, j'ai pas compris où était ton problème.

    Tu cherches à récupérer quoi au juste, une url ? un email ?
    Qu contient ta liste ? (sans y mettre l'email si y'en a un)
    Le temps ronge l'amour comme l'acide.

  3. #3
    Candidat au Club
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Avril 2017
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 13
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information

    Informations forums :
    Inscription : Avril 2017
    Messages : 3
    Points : 3
    Points
    3
    Par défaut le contenu de la liste
    Citation Envoyé par bistouille Voir le message
    Pour ma part, j'ai pas compris où était ton problème.

    Tu cherches à récupérer quoi au juste, une url ? un email ?
    Qu contient ta liste ? (sans y mettre l'email si y'en a un)
    La liste est alimentée par la fonction de Beautifulsoup qui y inscrit toutes les url qu'il trouve.
    Je cherche donc ensuite dans la liste les mots clé qui correspondrait à ce que je recherche, exemple "contact" ou "mention légale" ...
    si j'en trouve, je le renvoie à la fonction appelante.
    Pour l'instant je me limite à "contact" mais lorsque cela marchera pour contact je ferai le test pour d'autre mots clé.

    Actuellement, je ne trouve pas comment retrouver contact dans la liste, si tu as une idée je suis preneur.
    merci
    pascal

  4. #4
    Membre confirmé

    Homme Profil pro
    Bidouilleur
    Inscrit en
    Avril 2016
    Messages
    721
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bidouilleur

    Informations forums :
    Inscription : Avril 2016
    Messages : 721
    Points : 503
    Points
    503
    Billets dans le blog
    1
    Par défaut
    Il suffit simplement de parcourir ta liste et regarder si ton mot clef est présent.

    Comme tu le fais déjà ici
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    if ("contact" in chaine)
    Et ça tu peux le faire directement dans la construction de ta liste, en substituant ta liste à un dictionnaire.

    Bon, je crois que j'avais pas compris ton problème, pour récupérer le texte, il suffit d'utiliser la méthode getText.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    import urllib
    import bs4
     
    def testContact(the_uri):
    # l'URL du site web est valide, on va chercher s'il existe un lien vers la page contact et retourner ce lien 
        html_page = urllib.request.urlopen(the_uri)
        soup = bs4.BeautifulSoup(html_page, 'html.parser')
        linkList = {}
        for link in soup.find_all('a') :
            linkFound = link.get('href')
            textFound = link.getText()
            if linkFound and textFound.lower() in ('contact', 'autre_chose', 'encore_un_autre') :
                linkList[textFound] = linkFound
        return linkList
     
    import pprint
    pprint.pprint(testContact('TON_URL'))
    Le temps ronge l'amour comme l'acide.

  5. #5
    Candidat au Club
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Avril 2017
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 13
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information

    Informations forums :
    Inscription : Avril 2017
    Messages : 3
    Points : 3
    Points
    3
    Par défaut
    bonjour
    merci pour ton aide.

    J'ai également trouvé a faire comme cela :

    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
     
    def TestAccessible(the_uri):
    # l'URL du site web est valide, on va chercher s'il existe un lien vers la page contact et retourner ce lien 
        html_page = urllib.request.urlopen(the_uri)
        #response is now a string you can search through containing the page's html
        soup = bs4.BeautifulSoup(html_page, 'html.parser')
        LinkList = []
        for Link in soup.find_all('a'):
            LinkFound=Link.get('href')
            if LinkFound is not None:
                LinkList.append(LinkFound)
     
        contactList = list(filter(lambda x: "contact" in x, LinkList))
        accessList = list(filter(lambda x: "accessi" in x, LinkList))
     
     
        return (len(LinkList), contactList, accessList )

    qui fonctionne également
    Mais si tuas des remarques sur la pertinence de ces fonctions je suis preneur (moins rapide, demande plus de ressources ...)

  6. #6
    Membre confirmé

    Homme Profil pro
    Bidouilleur
    Inscrit en
    Avril 2016
    Messages
    721
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bidouilleur

    Informations forums :
    Inscription : Avril 2016
    Messages : 721
    Points : 503
    Points
    503
    Billets dans le blog
    1
    Par défaut
    C'est bien d'avoir trouver une solution, mais ici l'utilisation de lambda n'est pas justifiée, sachant que bs fournit des méthodes pour obtenir les diverses données d'un élément.

    Préfère l'utilisation de getText()
    Le temps ronge l'amour comme l'acide.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. RegEx pour extraire les liens d'une page html
    Par herch dans le forum API standards et tierces
    Réponses: 7
    Dernier message: 13/05/2009, 17h26
  2. lien relatif entre page d'un même site web
    Par lodan dans le forum Balisage (X)HTML et validation W3C
    Réponses: 1
    Dernier message: 26/06/2006, 14h36
  3. [RegEx] extraire les liens hypertexte d'une page web
    Par lalama dans le forum Langage
    Réponses: 1
    Dernier message: 22/03/2006, 10h43
  4. |VB6] Comment Lister les liens vers des fichiers d'une page web
    Par Mayti4 dans le forum VB 6 et antérieur
    Réponses: 8
    Dernier message: 18/01/2005, 18h17

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo