IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

parser html python 2.7


Sujet :

Python

  1. #1
    Membre habitué
    Profil pro
    Inscrit en
    Août 2009
    Messages
    195
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Août 2009
    Messages : 195
    Points : 156
    Points
    156
    Par défaut parser html python 2.7
    Bonjour

    je veux récupérer des informations concernant des navires sur ce site :
    http://www.maerskline.com/fr-be/coun...arance/antwerp

    Sur la page on voit un tableau : Date d'arrivée (ETA) , Voyage, Lloyds Number

    Avec urrlib2 je récupère bien la page.
    J'ai des infos qui m’intéresse qui se pressentent comme ceci:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
     
    <article class="main-article wfb">
     
        <header>
            <h1>Vessel Voyage Details</h1>
        </header>
        <p><strong>jm01Please select a vessel. &nbsp;</strong></p>
    <table class="snippet table table-striped table-bordered table-maersk" style="text-align: center;">
        <thead>
            <tr style="height: 15pt;" height="20">
                <td class="xl74" style="height: 15pt;"><strong>Arrival Date(ETA) </strong></td>
                <td class="xl75" style="border-left: medium none;"><strong>Vessel/Voyage </strong></td>
                <td class="xl75" style="border-left: medium none;"><strong>Lloyds number </strong></td>
                <td class="xl76" style="border-left: medium none;"><strong>Call reference number </strong></td>
            </tr>
        </thead>
        <tbody>
            <tr style="height: 15pt;" height="20">
                <td class="xl65" style="height: 15pt; width: 56pt;" align="right">&nbsp;12/07/2015</td>
                <td style="width: 111pt;">&nbsp;<a href="http://www.maerskline.com/fr-be/countries/be/world factbook/import/custom-clearance/antwerp/2015/july/msc mandraki voy 526e">MSC MANDRAKI</a></td>
                <td class="xl66" style="width: 48pt;" align="right">&nbsp;8613310</td>
                <td cla
    Le but est de récuperer le nom du navire, date, et lloyds number dans un tableau.

    En poussant plus loin, il y a une autre page qui m'interesse si on clique sur le navire.
    Sur cette page en question, il y a un lien qui pointe vers un fichier excel, que je souhaite récupérer (la récupération n'est pas un problème)

    Je demande vos avis sur la façon de parser cette première page sans faire trop compliqué (regex? beautiful soup?) sur un python 2.7



    Merci

  2. #2
    Membre émérite
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Janvier 2010
    Messages
    553
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Janvier 2010
    Messages : 553
    Points : 2 740
    Points
    2 740
    Par défaut
    Salut,

    si tu veux pas faire compliqué, je te déconseille très fortement d'utiliser des regex pour parser du HTML.
    Beautiful Soup, je connais pas vraiment mais ça m'a l'air parfaitement adapté si j'en juge par la description sur Pypi:
    Citation Envoyé par Pypi
    Beautiful Soup sits atop an HTML or XML parser, providing Pythonic idioms for iterating, searching, and modifying the parse tree.
    et comme j'ai déjà vu des dizaines de sujet ou les intervenants conseille BS pour parser du HTML, je suppose que ça doit être pas trop mal

Discussions similaires

  1. [HELP] Modélisation d'un parser HTML
    Par dazulu dans le forum Langages de programmation
    Réponses: 11
    Dernier message: 31/07/2006, 01h03
  2. [VB]parser HTML
    Par wehtam dans le forum VB 6 et antérieur
    Réponses: 8
    Dernier message: 31/01/2006, 23h26
  3. Parser HTML
    Par Mucsy dans le forum MFC
    Réponses: 3
    Dernier message: 02/01/2006, 15h49
  4. [Système] Existe-t-il un bon parser HTML pour PHP ?
    Par MiJack dans le forum Langage
    Réponses: 8
    Dernier message: 25/10/2005, 11h18
  5. [Parser HTML] quel parser utiliser pour du HTML 4.0 ?
    Par Cyber@l dans le forum API standards et tierces
    Réponses: 5
    Dernier message: 19/07/2004, 19h32

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo