Bonjour
je veux récupérer des informations concernant des navires sur ce site :
http://www.maerskline.com/fr-be/coun...arance/antwerp
Sur la page on voit un tableau : Date d'arrivée (ETA) , Voyage, Lloyds Number
Avec urrlib2 je récupère bien la page.
J'ai des infos qui m’intéresse qui se pressentent comme ceci:
Le but est de récuperer le nom du navire, date, et lloyds number dans un tableau.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22 <article class="main-article wfb"> <header> <h1>Vessel Voyage Details</h1> </header> <p><strong>jm01Please select a vessel. </strong></p> <table class="snippet table table-striped table-bordered table-maersk" style="text-align: center;"> <thead> <tr style="height: 15pt;" height="20"> <td class="xl74" style="height: 15pt;"><strong>Arrival Date(ETA) </strong></td> <td class="xl75" style="border-left: medium none;"><strong>Vessel/Voyage </strong></td> <td class="xl75" style="border-left: medium none;"><strong>Lloyds number </strong></td> <td class="xl76" style="border-left: medium none;"><strong>Call reference number </strong></td> </tr> </thead> <tbody> <tr style="height: 15pt;" height="20"> <td class="xl65" style="height: 15pt; width: 56pt;" align="right"> 12/07/2015</td> <td style="width: 111pt;"> <a href="http://www.maerskline.com/fr-be/countries/be/world factbook/import/custom-clearance/antwerp/2015/july/msc mandraki voy 526e">MSC MANDRAKI</a></td> <td class="xl66" style="width: 48pt;" align="right"> 8613310</td> <td cla
En poussant plus loin, il y a une autre page qui m'interesse si on clique sur le navire.
Sur cette page en question, il y a un lien qui pointe vers un fichier excel, que je souhaite récupérer (la récupération n'est pas un problème)
Je demande vos avis sur la façon de parser cette première page sans faire trop compliqué(regex? beautiful soup?) sur un python 2.7
Merci
Partager