Rechercher (et extraire) les liens vers la page contact d'un site web

**pshd23** · 12/05/2017, 19h36

Bonjour

Débutant en python 3.6 et beautifulsoup je suis bloqué dans une fonction ou je passe une URL valide en paramètre.
en gros, j'ouvre la page, je passe les paramètre à beautifulsooup
je créé une liste dans laquelle j'écris tous les URL trouvés dans la page.
ensuite j'e ne sais pas comment retrouver le lien contact dans la liste alors qu'il me l'affiche lorsque j'imprime la liste

Ou est mon erreur ?

voici le source :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
def TestContact(the_uri):
# l'URL du site web est valide, on va chercher s'il existe un lien vers la page contact et retourner ce lien 
    html_page = urllib.request.urlopen(the_uri)
    soup = bs4.BeautifulSoup(html_page, 'html.parser')
    LinkList = []
    for Link in soup.find_all('a'):
        LinkFound=Link.get('href')
        LinkList.append(LinkFound)
    print ("nombre d'URL : ",len(LinkList))
    print (LinkList)
    chaine = "-".join(LinkList)    
 
    if ("contact" in chaine) :
        print ("URL Contact")
 
return (URL_contact)

**bistouille** · 12/05/2017, 21h46

Pour ma part, j'ai pas compris où était ton problème.

Tu cherches à récupérer quoi au juste, une url ? un email ?
Qu contient ta liste ? (sans y mettre l'email si y'en a un)

**pshd23** · 13/05/2017, 10h09

Envoyé par bistouille

Pour ma part, j'ai pas compris où était ton problème.

Tu cherches à récupérer quoi au juste, une url ? un email ?
Qu contient ta liste ? (sans y mettre l'email si y'en a un)

La liste est alimentée par la fonction de Beautifulsoup qui y inscrit toutes les url qu'il trouve.
Je cherche donc ensuite dans la liste les mots clé qui correspondrait à ce que je recherche, exemple "contact" ou "mention légale" ...
si j'en trouve, je le renvoie à la fonction appelante.
Pour l'instant je me limite à "contact" mais lorsque cela marchera pour contact je ferai le test pour d'autre mots clé.

Actuellement, je ne trouve pas comment retrouver contact dans la liste, si tu as une idée je suis preneur.
merci
pascal

**bistouille** · 13/05/2017, 10h46

Il suffit simplement de parcourir ta liste et regarder si ton mot clef est présent.

Comme tu le fais déjà ici

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

if ("contact" in chaine)

Et ça tu peux le faire directement dans la construction de ta liste, en substituant ta liste à un dictionnaire.

Bon, je crois que j'avais pas compris ton problème, pour récupérer le texte, il suffit d'utiliser la méthode getText.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import urllib
import bs4
 
def testContact(the_uri):
# l'URL du site web est valide, on va chercher s'il existe un lien vers la page contact et retourner ce lien 
    html_page = urllib.request.urlopen(the_uri)
    soup = bs4.BeautifulSoup(html_page, 'html.parser')
    linkList = {}
    for link in soup.find_all('a') :
        linkFound = link.get('href')
        textFound = link.getText()
        if linkFound and textFound.lower() in ('contact', 'autre_chose', 'encore_un_autre') :
            linkList[textFound] = linkFound
    return linkList
 
import pprint
pprint.pprint(testContact('TON_URL'))

**pshd23** · 14/05/2017, 11h42

bonjour
merci pour ton aide.

J'ai également trouvé a faire comme cela :

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
def TestAccessible(the_uri):
# l'URL du site web est valide, on va chercher s'il existe un lien vers la page contact et retourner ce lien 
    html_page = urllib.request.urlopen(the_uri)
    #response is now a string you can search through containing the page's html
    soup = bs4.BeautifulSoup(html_page, 'html.parser')
    LinkList = []
    for Link in soup.find_all('a'):
        LinkFound=Link.get('href')
        if LinkFound is not None:
            LinkList.append(LinkFound)
 
    contactList = list(filter(lambda x: "contact" in x, LinkList))
    accessList = list(filter(lambda x: "accessi" in x, LinkList))
 
 
    return (len(LinkList), contactList, accessList )

qui fonctionne également

Mais si tuas des remarques sur la pertinence de ces fonctions je suis preneur (moins rapide, demande plus de ressources ...)

**bistouille** · 14/05/2017, 12h19

C'est bien d'avoir trouver une solution, mais ici l'utilisation de lambda n'est pas justifiée, sachant que bs fournit des méthodes pour obtenir les diverses données d'un élément.

Préfère l'utilisation de getText()

Rechercher (et extraire) les liens vers la page contact d'un site web [Python 3.X]

Python

Discussions similaires

Partager

Partager