IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Recuperer tout le contenu d'une balise dans fichier html


Sujet :

Python

  1. #1
    Membre averti Avatar de mohan
    Homme Profil pro
    mateur en informatique
    Inscrit en
    Juillet 2016
    Messages
    30
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : Cameroun

    Informations professionnelles :
    Activité : mateur en informatique
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Juillet 2016
    Messages : 30
    Par défaut Recuperer tout le contenu d'une balise dans fichier html
    Salut, bon voilà mon problème, je chercher a recuperer tous les contenus de la balise <td> dans un fichier html. je crois être dans la bon direction...
    sa marche bien sur, mais certain <td> son ignorer.
    et les contenues de cet site que j'aimerais recuperer.
    voici le code

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    import requests
    import sys, sqlite3
    import os, time
     
    x =requests.get('http://sslproxies.org')
    files ="source.txt"
    open(files,"w").write(x.text)
     
    name_ =time.strftime("%A_%Y_%H:%M")
     
    dbname ="ips/{}".format(name_)
    conn =sqlite3.connect(dbname)
    cur =conn.cursor()
     
     
     
    print(name_)
    try:
        cur.execute("CREATE TABLE IP('{}' TEXT)".format(name_))
    except:
        pass
     
    obj_fichier = open('source.txt', 'r')
    begin_balise = '<td>'
    end_balise = '</td>'
    while True:
        ligne = obj_fichier.readline()
        pos_begin = ligne.find(begin_balise)
        pos_end = ligne.find(end_balise)
        if pos_begin != -1:
            l = len(begin_balise)
            extract = ligne[pos_begin + l:pos_end]
            print(extract)
            cur.execute("INSERT INTO IP('{}') VALUES('{}')".format(name_, extract))
            conn.commit
     
    obj_fichier.close()
    svp

  2. #2
    Membre chevronné
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2004
    Messages
    253
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2004
    Messages : 253
    Par défaut
    Bonjour,

    pour manipuler de l'html je te conseille d'utiliser des lib dédiées à cet effet comme BeautifulSoup ou pour manipuler du xml : lxml

  3. #3
    Membre averti
    Homme Profil pro
    Entrepreneur
    Inscrit en
    Février 2013
    Messages
    18
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : Entrepreneur
    Secteur : Tourisme - Loisirs

    Informations forums :
    Inscription : Février 2013
    Messages : 18
    Par défaut
    Bonjour,
    Après avoir essayé BeautifulSoup qui est un bon logiciel, je vous conseille d'utiliser Selenium.webdriver qui, à mon avis est plus performant.
    Cordialement

  4. #4
    Expert confirmé
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    4 061
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 4 061
    Par défaut
    Bonjour,

    Comme dis précédemment, je conseille lxml. Avec sa méthode xpath, il est très efficace, et permet de rapidement faire le boulot...

Discussions similaires

  1. Imprimer le contenu d'une balise dans une pdf
    Par owenho dans le forum Balisage (X)HTML et validation W3C
    Réponses: 2
    Dernier message: 08/12/2012, 17h23
  2. changer contenu d'une balise dans un <object>
    Par Mr Adnanox dans le forum Général JavaScript
    Réponses: 5
    Dernier message: 28/11/2011, 12h12
  3. Réponses: 5
    Dernier message: 26/11/2011, 13h09
  4. Remplacer texte <p> par une image dans fichier html
    Par bob633 dans le forum Général JavaScript
    Réponses: 11
    Dernier message: 15/02/2011, 11h16
  5. Réponses: 5
    Dernier message: 26/08/2010, 15h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo