parser html python 2.7

**Nico_tournai** · 08/07/2015, 14h08

Bonjour

je veux récupérer des informations concernant des navires sur ce site :
http://www.maerskline.com/fr-be/coun...arance/antwerp

Sur la page on voit un tableau : Date d'arrivée (ETA) , Voyage, Lloyds Number

Avec urrlib2 je récupère bien la page.
J'ai des infos qui m’intéresse qui se pressentent comme ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
 
<article class="main-article wfb">
 
    <header>
        <h1>Vessel Voyage Details</h1>
    </header>
    <p><strong>jm01Please select a vessel. &nbsp;</strong></p>
<table class="snippet table table-striped table-bordered table-maersk" style="text-align: center;">
    <thead>
        <tr style="height: 15pt;" height="20">
            <td class="xl74" style="height: 15pt;"><strong>Arrival Date(ETA) </strong></td>
            <td class="xl75" style="border-left: medium none;"><strong>Vessel/Voyage </strong></td>
            <td class="xl75" style="border-left: medium none;"><strong>Lloyds number </strong></td>
            <td class="xl76" style="border-left: medium none;"><strong>Call reference number </strong></td>
        </tr>
    </thead>
    <tbody>
        <tr style="height: 15pt;" height="20">
            <td class="xl65" style="height: 15pt; width: 56pt;" align="right">&nbsp;12/07/2015</td>
            <td style="width: 111pt;">&nbsp;<a href="http://www.maerskline.com/fr-be/countries/be/world factbook/import/custom-clearance/antwerp/2015/july/msc mandraki voy 526e">MSC MANDRAKI</a></td>
            <td class="xl66" style="width: 48pt;" align="right">&nbsp;8613310</td>
            <td cla

Le but est de récuperer le nom du navire, date, et lloyds number dans un tableau.

En poussant plus loin, il y a une autre page qui m'interesse si on clique sur le navire.
Sur cette page en question, il y a un lien qui pointe vers un fichier excel, que je souhaite récupérer (la récupération n'est pas un problème)

Je demande vos avis sur la façon de parser cette première page sans faire trop compliqué

(regex? beautiful soup?) sur un python 2.7

Merci

parser html python 2.7

Python

Mode arborescent

Discussions similaires

Partager

Partager