Enregistrer le texte d'une page HTML avec Selenium

**Arsene12** · 09/03/2019, 06h44

bonjour,

j'ai trouvé ce code qui enregistre uniquement le texte d'une page html :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
from requests import get
 
response = get("https://fr.wikipedia.org/wiki/Wiki")
soup = BS(response.content, "html.parser")
for child in soup.body.children:
   if child.name == 'script':
       child.decompose() 
 
myText = soup.body.get_text()
 
f1=open("maPage.html","w",encoding="utf-8-sig")
f1.write(str(myText))
f1.close()

Lorsque j'utilise selenium, j'enregistre la page comme ceci après y avoir accéder :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
html = driver.page_source
f1=open("maPage.html","w",encoding="utf-8-sig")
f1.write(str(html))
f1.close()

Pourriez-vous me dire, svp, comment faire pour enregistrer uniquement le texte de la page comme dans le code ci-dessus?
Je vous remercie d'avance.
Arsène

**Arsene12** · 09/03/2019, 07h04

J'ai trouvé. Voici le code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
pageHTML = driver.page_source
monTexte= html.translate(non_bmp_map)
 
#response = get("https://fr.wikipedia.org/wiki/Wiki")
soup = BS(monTexte, "html.parser")
for child in soup.body.children:
   if child.name == 'script':
       child.decompose() 
print(soup.body.get_text())
 
myText = soup.body.get_text()
 
f1=open("maPage.html","w",encoding="utf-8-sig")
f1.write(str(myText))
f1.close()

Si on mets

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

soup = BS(pageHTML , "html.parser")  # au lieu de soup = BS(monTexte, "html.parser")

on obtient l'erreur :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 9303-9303: Non-BMP character not supported in Tk

Mais je constate que ce code fonctionne pas bien. Je voudrais qu'il donne la même chose que lorqu'on enregistre une page au format .txt dans firefox.

**Arsene12** · 09/03/2019, 10h38

Je pense avoir trouvé la solution. Il faut installer html2text :

https://pypi.org/project/html2text/

pip install html2text

Le code est le suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
import html2text
from selenium import webdriver
 
# mettre le code qui charge la page web
 
html = driver.page_source
f1=open("maPage.txt","w",encoding="utf-8-sig")
f1.write(html2text.html2text(html))
f1.close()

Enregistrer le texte d'une page HTML avec Selenium

Python

Vue hybride

Discussions similaires

Partager

Partager