IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Enregistrer le texte d'une page HTML avec Selenium


Sujet :

Python

  1. #1
    Membre actif
    Profil pro
    Inscrit en
    Février 2003
    Messages
    926
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2003
    Messages : 926
    Points : 273
    Points
    273
    Par défaut Enregistrer le texte d'une page HTML avec Selenium
    bonjour,

    j'ai trouvé ce code qui enregistre uniquement le texte d'une page html :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    from requests import get
     
    response = get("https://fr.wikipedia.org/wiki/Wiki")
    soup = BS(response.content, "html.parser")
    for child in soup.body.children:
       if child.name == 'script':
           child.decompose() 
     
    myText = soup.body.get_text()
     
    f1=open("maPage.html","w",encoding="utf-8-sig")
    f1.write(str(myText))
    f1.close()
    Lorsque j'utilise selenium, j'enregistre la page comme ceci après y avoir accéder :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    html = driver.page_source
    f1=open("maPage.html","w",encoding="utf-8-sig")
    f1.write(str(html))
    f1.close()
    Pourriez-vous me dire, svp, comment faire pour enregistrer uniquement le texte de la page comme dans le code ci-dessus?
    Je vous remercie d'avance.
    Arsène

  2. #2
    Membre actif
    Profil pro
    Inscrit en
    Février 2003
    Messages
    926
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2003
    Messages : 926
    Points : 273
    Points
    273
    Par défaut
    J'ai trouvé. Voici le code :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    pageHTML = driver.page_source
    monTexte= html.translate(non_bmp_map)
     
    #response = get("https://fr.wikipedia.org/wiki/Wiki")
    soup = BS(monTexte, "html.parser")
    for child in soup.body.children:
       if child.name == 'script':
           child.decompose() 
    print(soup.body.get_text())
     
    myText = soup.body.get_text()
     
    f1=open("maPage.html","w",encoding="utf-8-sig")
    f1.write(str(myText))
    f1.close()
    Si on mets
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    soup = BS(pageHTML , "html.parser")  # au lieu de soup = BS(monTexte, "html.parser")
    on obtient l'erreur :


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 9303-9303: Non-BMP character not supported in Tk

    Mais je constate que ce code fonctionne pas bien. Je voudrais qu'il donne la même chose que lorqu'on enregistre une page au format .txt dans firefox.

  3. #3
    Membre actif
    Profil pro
    Inscrit en
    Février 2003
    Messages
    926
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2003
    Messages : 926
    Points : 273
    Points
    273
    Par défaut
    Je pense avoir trouvé la solution. Il faut installer html2text :

    https://pypi.org/project/html2text/

    pip install html2text

    Le code est le suivant :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    import html2text
    from selenium import webdriver
     
    # mettre le code qui charge la page web
     
    html = driver.page_source
    f1=open("maPage.txt","w",encoding="utf-8-sig")
    f1.write(html2text.html2text(html))
    f1.close()

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [XL-2016] Enregistrement au format PDF avec page variable en fonction d'une cellule
    Par chialouse dans le forum Macros et VBA Excel
    Réponses: 5
    Dernier message: 07/02/2018, 20h09
  2. Export au format TXT avec des "PIPE" en séparateur
    Par Grim971 dans le forum Macros et VBA Excel
    Réponses: 22
    Dernier message: 30/09/2017, 10h42
  3. Réponses: 2
    Dernier message: 13/09/2014, 22h28
  4. Réponses: 2
    Dernier message: 20/03/2014, 08h36
  5. Exporter xls en txt (sans passer par enregistrer au format *.txt)
    Par Danieldu54 dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 12/02/2011, 18h46

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo