Supprimer balises html

**Fatouchka** · 19/05/2020, 09h10

Fonction extraire liens html
Bonjour à tous,
J'ai un exercice à faire :

1. Ecrire une fonction extraire_liens(page) retournant la liste des liens HTTP présents dans le contenu de la page. Pour rappel, la structure d'une balise contenant un lien est: <a href= http...." ...>
J'ai fait ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
def extraire_liens(page):
 
    from bs4 import BeautifulSoup
 
    from urllib.request import urlopen
 
    from urllib import parse
 
 
    url = "https://www.iedparis8.net/"
 
 
    page = BeautifulSoup(urlopen(url), 'html.parser')
 
 
    for liens in page.find_all('a'):
 
        print(liens.get('href'))

Comment faire pour que ma fonction soit plus sélective, je voudrais des URL Absolues.

2. On souhaite nettoyer la page des différentes balises HTML qui s'y trouvent (une balise commence par le caractère '<' et termine par '>'). Vous devez réaliser une fonction nettoie_page(page) dont le rôle est de supprimer les balises HTML du contenu.
J'ai fait ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
import re
 
def nettoie_page(page):
    page = re.compile(r'<.*?>')
 
    return page('' ", page)

Merci beaucoup pour votre aide.
F.

**wiztricks** · 19/05/2020, 10h54

Salut,

Envoyé par Fatouchka

Comment faire pour que ma fonction soit plus sélective, je voudrais des URL Absolues.

Une page HTML est un document structuré de type texte.

Plutôt que de laisser à BeautifoulSoup s'en dépatouiller, vous pourriez sauvegarder le texte dans un fichier et l'inspecter avec un éditeur (de texte) pour voir ce qu'il y a dedans.

Si la chaîne de caractères associée à l'attribut "href" est une URL relative (ou autre chose). Il faut vous mettre à la place d'un navigateur Web: comment va-t-il compléter cette adresse relative pour charger le document correspondant.

Comprendre comment sont structurés les documents HTML et ce que peut faire un navigateur Web des informations qu'ils contiennent, n'a rien à voir avec la programmation Python.
Par contre, ignorant cela, vous allez attendre de Python ou de BeautifoulSoup ce qu'ils ne pourront pas vous donner.

Envoyé par Fatouchka

2. On souhaite nettoyer la page des différentes balises HTML qui s'y trouvent (une balise commence par le caractère)

C'est un excellent exercice pour apprendre à utiliser les expressions régulières. Mais c'est à vous de le faire. Si vous ne vous en sortez pas, vous pouvez chercher un peu sur Internet pour comprendre les solutions qu'on vous propose (et essayer de les faire marcher). Si vous ne vous en sortez pas poser des questions spécifiques.

Quand on utilise BeautifoulSoup, page.text fait le boulot.

- W

Supprimer balises html

Exercices Python

Discussions similaires

Partager

Partager