Parser un code html avec un pattern contenant un charactère joker.

Version imprimable

Bonjour,

Je cherche à récupérer les horaires des métro sur le site de la ratp.
Mon problème est le suivant : pour certaines lignes, il y a une fourche et donc les horaires retournés sur le site doivent être mis en relation avec le terminus.
Pour exemple la ligne 7, station jussieu :
quand on regarde la page source il y a des balises
Code:

1 2 3 4 5 </div><div class="subtitle">Direction <b class="bwhite">Mairie d'Ivry - Villejuif Louis Aragon</b></div><div class="bg1"> > Mairie d'Ivry</div><div class="schmsg1"><b>1 mn</b></div><div class="bg3"> > Villejuif Louis Aragon</div><div class="schmsg3"><b>6 mn</b></div><div class="bg1"> > Mairie d'Ivry</div><div class="schmsg1"><b>10 mn</b></div><div class="bg3"> > Villejuif Louis Aragon</div><div class="schmsg3"><b>15 mn</b>
J'arrive à parser les horaires seuls, ou l'un des deux terminus.
Mais je n'arrive pas à tous faire en même temps.
Notamment, j'aimerais pouvoir faire un parse avec un caractère jocker pour bg1 ou bg3 et écrire bg*
Code:

1 2 3 for o in soup.find_all('div', attrs={"class":u"bg{}".format(1)}): # print(o.get_text()) listterminus.append(o.get_text())
J'ai fait une recherche et j'ai trouver regex et fnmatch, mais toutes mes tentatives pour m'en servir dans le cas que j'ai énoncé ce sont avérées infructueuses.
Quelqu'un pourrait-il m'éclairer un peu sur le sujet ?
Merci

Salut,

Les regex pour parser du html est généralement déconseillé, la syntaxe des pages n'étant pas toujours très soignée.

Par contre avec HTMLParser tu peux travailler avec plus de précision.

Exemple avec ta page:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
 
# -*- coding: utf-8 -*-
 
from html.parser import HTMLParser
 
class RATPParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.in_station = False
        self.in_direction = False
        self.in_direction = False
        self.in_timing = False
        self.in_bg = False
        self.timing = {}
 
    def handle_starttag(self, tag, attrs):
        if self.in_timing:
            if attrs == [('class', 'seppage')]:
                self.in_timing = False
                self.in_bg = False
            elif tag == "div" and 'class' in attrs[0]:
                if attrs[0][1].startswith(('bg', 'schmsg')):
                    self.in_bg = True
 
    def handle_data(self, data):
        data = data.strip()
        if data:
            if self.in_timing:
                if self.in_bg:
                    self.timing['next_trains'].append(data)
            if self.in_station:
                self.timing['station'] = data
                self.in_station = False
            elif self.in_direction:
                self.timing['direction'] = data
                self.timing['next_trains'] = []
                self.in_direction = False
                self.in_timing = True
            elif data == 'Station':
                self.in_station = True
            elif data == 'Direction':
                self.in_direction = True
 
if __name__ == '__main__':
    with open('/home/vincent/Bureau/ratp.html', 'r') as inf:
        content = inf.read()
        parser = RATPParser()
        parser.feed(content)
        tmg = parser.timing
        if tmg:
            print('Station:\t%s\nDirections:\t%s' %(tmg['station'], tmg['direction']))
            for i in range(0, len(tmg['next_trains']), 2):
                print('  %-28s:%-10s' % (tmg['next_trains'][i], tmg['next_trains'][i+1]))

ça donne ça:

Code:

1
2
3
4
5
6
7
 
Station:	Jussieu
Directions:	Mairie d'Ivry - Villejuif Louis Aragon
  Mairie d'Ivry               :2 mn      
  Villejuif Louis Aragon      :7 mn      
  Villejuif Louis Aragon      :Train retarde
  Mairie d'Ivry               :15 mn

26/06/2016, 10h43
Erlen

Je te remercie pour ta réponse.
Maintenant je vais étudier ça de près parce que j'avoue qu'il y a des pans entiers où je ne comprends absolument rien.
Je te poserais peut-être quelques questions supplémentaires.

Merci
26/06/2016, 11h49
wiztricks
Salut,

Citation:

Envoyé par Erlen

J'arrive à parser les horaires seuls, ou l'un des deux terminus.
Mais je n'arrive pas à tous faire en même temps.
Notamment, j'aimerais pouvoir faire un parse avec un caractère jocker pour bg1 ou bg3 et écrire bg*

Pour ce qui est de beautifoulsoup, vous pouvez passer une fonction en argument:
Code:

1 2 for z in soup.find_all(class_=lambda s: s in ["bg2", "bg3"]): ...
Et cette fonction peut être un re....

Code:

for z in soup.find_all(class_=re.compile( 'bg[2|3]')):

voir la documentation.

- W