Python: Comment ignorer la plupart des balises html et sélectionner uniquement le texte (peut-être avec Regex?

**Melcus** · 22/05/2021, 09h41

salut, j'ai quelques fichiers html avec des balises telles que <div id =" "> </div>, <span class ..>, <dt>, <br>, etc.

Mais, aussi, j'ai ces 4 balises spéciales.

Code HTML :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
<title> J'adore les films </title>
 
<h1 class =" den_articol "itemprop =" name "> Les hauteurs des espaces éternels </h1>
 
<p class =" text_obisnuit "> À la fin du film <em> je le vois bien différent </em> qu'il était avant. </p>
 
<p class =" text_obisnuit2 "> Allez, apportez-moi du café. </p>

**LE PROBLÈME:**

Avec mon code Python, je veux sélectionner le texte UNIQUEMENT à partir de ces 4 balises et en ignorer les autres. Et je dois garder ces balises intactes. Donc, j'écris les délimiteurs comme ci-dessous:

Vous avez mon script complet HERE

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
    extensie_fisier = ".html"
 
    lista_cale_fisiere = []
    delimitatori_text = [['<title','</title>'], ['<h1 class="den_articol" itemprop="name', '</h1>'], ['<p class="text_obisnuit', '</p>'], ['<span class="text', '</span>']]

Ma méthode fonctionne, la traduction est correcte sur ces balises html. Donc, la sélection est bonne. Mais a quelques petites erreurs. De nombreuses balises changent. Certains espaces vides se produisent après l'exécution du code. </span> devient </ SPAN> ou <em> devient </ EM>. Idem pour </ li> ou </ ol>.

et s'il y avait une solution plus simple? Je me demande si je ne pourrais pas faciliter l'opération avec un REGEX. Par exemple ceci REGEX (<([^>]+)>.*?) sélectionnera toutes les balises html possibles, et mon code Python sélectionnera plus facilement le texte et le traduira. Je pense donc qu'il peut ignorer les balises html.

Le problème dans ce cas est que je ne sais pas comment GARDER les balises html après avoir exécuté le code Python avec ce Regex. Et je ne sais pas où insérer cette expression régulière dans mon code.

Encore une fois, vous avez mon script complet HERE

Invité · 22/05/2021, 14h41

Bonjour,

Tu peux peut-être trouvé ton bonheur avec BeautifulSoup ?

**Melcus** · 22/05/2021, 15h12

Envoyé par LeNarvalo

Bonjour,

Tu peux peut-être trouvé ton bonheur avec BeautifulSoup ?

Je ne sais pas comment travailler avec BeautifulSoup. J'entends maintenant pour la première fois, je suis un débutant

**wiztricks** · 22/05/2021, 15h39

Salut,

Envoyé par Melcus

je suis un débutant

Vous devez faire la différence entre "est-ce que le texte extrait est correct" et "est-ce que sa traduction avec google translate reste correcte".

Après débutant ou pas, vous ne demandez pas de l'aide pour faire un exercice ou comprendre un concept du langage mais pour la mise au point de la fonctionnalité d'un programme.
Sans vous embarquer à une description technique, un exemple qui permet de reproduire le problème constaté avec la fonctionnalité en question serait bien utile...

- W

**Sve@r** · 22/05/2021, 17h08

Bonjour

Envoyé par Melcus

**LE PROBLÈME:**

Avec mon code Python, je veux sélectionner le texte UNIQUEMENT à partir de ces 4 balises et en ignorer les autres.

Le vrai problème, c'est que "h1" (ou même "h") c'est une balise, mais "class=" ce n'est pas une balise, c'est une caractéristique. Et cette caractéristique peut évoluer. Si tu te focalises dessus au détail près, tu seras marron dès que la balise évoluera un tant soit peu.

Un autre souci avec la regex, c'est que la regex est généralement gloutonne. Si tu lui passes un match, elle cherchera la string maximale qui correspond. Imaginons par exemple que tu veuilles chercher "<H1 ......>" tu te dis "je supprime "ce qui commence par <H puis qui contient du caractère et qui se termine par >". Et là, tu ne récupères plus rien parce que dans la chaine "<H1 ...>texte à garder</H1>" la seconde balise </H1>" se termine aussi par un ">". Je crois qu'il y a des options pour lui dire de se contenter du minimim mais je ne les connais pas.

Tu peux tenter un truc en commençant par supprimer le "</H1>" final ce qui permet alors de supprimer le "<H1 ......>" du début sans perdre le texte...

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#!/usr/bin/env python3
 
data='<h1 class =" den_articol "itemprop =" name "> Les hauteurs des espaces éternels </h1>'
 
import re
print(data)
tabBalises=(
	("/[hH][0-9].{0,}", "[hH][0-9].{0,}"),
)
 
for balise in tabBalises:
	for b in balise:
		data=re.sub(r"<%s>" % b, "", data)
print(data)

... mais bon, filtrer un texte aussi fluctuant ce ne sera pas évident.

**MPython Alaplancha** · 22/05/2021, 17h38

Envoyé par Sve@r

Je crois qu'il y a des options pour lui dire de se contenter du minimim mais je ne les connais pas.

Bonjour,

*?, +?, ??

Les qualificateurs '*', '+' et '?' sont tous greedy (gourmands) ; ils valident autant de texte que possible. Parfois ce comportement n'est pas désiré ; si l'expression rationnelle <.*> est testée avec la chaîne '<a> b <c>', cela correspondra à la chaîne entière, et non juste à '<a>'. Ajouter ? derrière le qualificateur lui fait réaliser l'opération de façon non-greedy (ou minimal) ; le moins de caractères possibles seront validés. Utiliser l'expression rationnelle <.*?> validera uniquement '<a>'.

Sinon, comme dit par @LeNarvalo, faudrait surement regarder du coté du module BeautifulSoup. (je ne l'ai jamais étudié, mais si je devais parcourir du Htlm, je regarderai en premier lieu de ce coté)

**jurassic pork** · 22/05/2021, 18h17

hello,

voici un exemple pour "parser" du html avec beautifulsoup :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# coding: utf-8
from bs4 import BeautifulSoup
html_doc = """
<html>
 <title> J'adore les films </title>
<h1 class =" den_articol " itemprop =" name "> Les hauteurs des espaces éternels </h1>
<p class =" text_obisnuit "> À la fin du film <em> je le vois bien différent </em> qu'il était avant. </p>
<p class =" text_obisnuit2 "> Allez, apportez-moi du café. </p>
</html>
"""
soup = BeautifulSoup(html_doc)
print(soup.find('title').text)
print(soup.find('h1', class_='den_articol').text)
print(soup.find('p', class_='text_obisnuit').text)

Résultat :

J'adore les films
Les hauteurs des espaces éternels
À la fin du film je le vois bien différent qu'il était avant.

Ami calmant, J.P

Python: Comment ignorer la plupart des balises html et sélectionner uniquement le texte (peut-être avec Regex?

Python

Vue hybride

Discussions similaires

Partager

Partager