IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

Problème Parse fichier .html


Sujet :

Réseau/Web Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Nouveau candidat au Club
    Homme Profil pro
    Chargé de référencement
    Inscrit en
    Octobre 2017
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Chargé de référencement

    Informations forums :
    Inscription : Octobre 2017
    Messages : 1
    Par défaut Problème Parse fichier .html
    Résolu, merci

  2. #2
    Expert confirmé Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 986
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 986
    Par défaut
    C'est normal, toute la partie de la ligne 21 à 27 devrait être dans ta boucle for sur les noms de fichiers, et pas en dehors. Sinon uniquement le dernier fichier sera traité:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    for file_name in glob.glob(os.path.join(path, "*.html")):
        with open(file_name , encoding="UTF-8") as html_file:
            soup = bsoup(html_file, "html.parser")
     
            datasaved=""
            for tr in soup.find_all('tr'):
    	    data=""
    	    for td in tr.find_all('td'):
    		data=data+","+td.text
                    if len(data) !=0:
                        datasaved = datasaved + "\n" + data
     
    with open("/home/user/Téléchargements/Parsing/resultats.csv", 'a') as fichier:
        fichier.write (datasaved)
        print(datasaved)
    Aussi, à ta place j'écrirais au fur et à mesure dans resultats.csv plutôt que de tout engranger dans datasaved (sauf si tu en as une utilisation ultérieure particulière).

    À propos de:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    data=data+","+td.text
    if len(data) !=0:
        datasaved = datasaved + "\n" + data
    Le test sur la longueur de la chaîne data sera toujours vrai étant donné qu'il contient au moins une virgule. D'ailleurs en procédant de cette manière, tu vas te retrouver avec un chaîne commençant par une virgule vu que data est une chaîne vide au départ.

    Tu devrais utiliser le module csv plutôt que de t'amuser à concaténer les virgules et les sauts de ligne toi-même. Il suffit de créer une liste avec les champs de ton csv.

Discussions similaires

  1. Problème de fichiers html intégrés hors navigateur
    Par Dr_Robotnik dans le forum Windows 7
    Réponses: 0
    Dernier message: 28/08/2013, 11h09
  2. Réponses: 13
    Dernier message: 03/09/2007, 23h21
  3. [Upload] Problème Upload Fichiers via html
    Par Typhon dans le forum Langage
    Réponses: 3
    Dernier message: 11/02/2007, 11h52
  4. Réponses: 9
    Dernier message: 06/12/2006, 00h41
  5. Création fichier PDF : problème insertion texte HTML
    Par isazazou dans le forum Documents
    Réponses: 2
    Dernier message: 21/11/2006, 15h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo