parser html python 2.7

**Nico_tournai** · 08/07/2015, 14h08

Bonjour

je veux récupérer des informations concernant des navires sur ce site :
http://www.maerskline.com/fr-be/coun...arance/antwerp

Sur la page on voit un tableau : Date d'arrivée (ETA) , Voyage, Lloyds Number

Avec urrlib2 je récupère bien la page.
J'ai des infos qui m’intéresse qui se pressentent comme ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
 
<article class="main-article wfb">
 
    <header>
        <h1>Vessel Voyage Details</h1>
    </header>
    <p><strong>jm01Please select a vessel. &nbsp;</strong></p>
<table class="snippet table table-striped table-bordered table-maersk" style="text-align: center;">
    <thead>
        <tr style="height: 15pt;" height="20">
            <td class="xl74" style="height: 15pt;"><strong>Arrival Date(ETA) </strong></td>
            <td class="xl75" style="border-left: medium none;"><strong>Vessel/Voyage </strong></td>
            <td class="xl75" style="border-left: medium none;"><strong>Lloyds number </strong></td>
            <td class="xl76" style="border-left: medium none;"><strong>Call reference number </strong></td>
        </tr>
    </thead>
    <tbody>
        <tr style="height: 15pt;" height="20">
            <td class="xl65" style="height: 15pt; width: 56pt;" align="right">&nbsp;12/07/2015</td>
            <td style="width: 111pt;">&nbsp;<a href="http://www.maerskline.com/fr-be/countries/be/world factbook/import/custom-clearance/antwerp/2015/july/msc mandraki voy 526e">MSC MANDRAKI</a></td>
            <td class="xl66" style="width: 48pt;" align="right">&nbsp;8613310</td>
            <td cla

Le but est de récuperer le nom du navire, date, et lloyds number dans un tableau.

En poussant plus loin, il y a une autre page qui m'interesse si on clique sur le navire.
Sur cette page en question, il y a un lien qui pointe vers un fichier excel, que je souhaite récupérer (la récupération n'est pas un problème)

Je demande vos avis sur la façon de parser cette première page sans faire trop compliqué

(regex? beautiful soup?) sur un python 2.7

Merci

**Tryph** · 08/07/2015, 15h05

Salut,

si tu veux pas faire compliqué, je te déconseille très fortement d'utiliser des regex pour parser du HTML.
Beautiful Soup, je connais pas vraiment mais ça m'a l'air parfaitement adapté si j'en juge par la description sur Pypi:

Envoyé par Pypi

Beautiful Soup sits atop an HTML or XML parser, providing Pythonic idioms for iterating, searching, and modifying the parse tree.

et comme j'ai déjà vu des dizaines de sujet ou les intervenants conseille BS pour parser du HTML, je suppose que ça doit être pas trop mal

parser html python 2.7

Python

Discussions similaires

Partager

Partager