Enregistrer le texte d'une page HTML avec Selenium

Version imprimable

bonjour,

j'ai trouvé ce code qui enregistre uniquement le texte d'une page html :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 from requests import get response = get("https://fr.wikipedia.org/wiki/Wiki") soup = BS(response.content, "html.parser") for child in soup.body.children: if child.name == 'script': child.decompose() myText = soup.body.get_text() f1=open("maPage.html","w",encoding="utf-8-sig") f1.write(str(myText)) f1.close()
Lorsque j'utilise selenium, j'enregistre la page comme ceci après y avoir accéder :
Code:

1 2 3 4 html = driver.page_source f1=open("maPage.html","w",encoding="utf-8-sig") f1.write(str(html)) f1.close()
Pourriez-vous me dire, svp, comment faire pour enregistrer uniquement le texte de la page comme dans le code ci-dessus?
Je vous remercie d'avance.
Arsène

J'ai trouvé. Voici le code :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 pageHTML = driver.page_source monTexte= html.translate(non_bmp_map) #response = get("https://fr.wikipedia.org/wiki/Wiki") soup = BS(monTexte, "html.parser") for child in soup.body.children: if child.name == 'script': child.decompose() print(soup.body.get_text()) myText = soup.body.get_text() f1=open("maPage.html","w",encoding="utf-8-sig") f1.write(str(myText)) f1.close()
Si on mets

Code:

soup = BS(pageHTML , "html.parser") # au lieu de soup = BS(monTexte, "html.parser")

on obtient l'erreur :

Code:

UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 9303-9303: Non-BMP character not supported in Tk

Mais je constate que ce code fonctionne pas bien. Je voudrais qu'il donne la même chose que lorqu'on enregistre une page au format .txt dans firefox.

Je pense avoir trouvé la solution. Il faut installer html2text :

https://pypi.org/project/html2text/

pip install html2text

Le code est le suivant :
Code:

1 2 3 4 5 6 7 8 9 import html2text from selenium import webdriver # mettre le code qui charge la page web html = driver.page_source f1=open("maPage.txt","w",encoding="utf-8-sig") f1.write(html2text.html2text(html)) f1.close()