Parser un code html avec un pattern contenant un charactère joker.
Bonjour,
Je cherche à récupérer les horaires des métro sur le site de la ratp.
Mon problème est le suivant : pour certaines lignes, il y a une fourche et donc les horaires retournés sur le site doivent être mis en relation avec le terminus.
Pour exemple la ligne 7, station jussieu :
quand on regarde la page source il y a des balises
Code:
1 2 3 4 5
| </div><div class="subtitle">Direction <b class="bwhite">Mairie d'Ivry - Villejuif Louis Aragon</b></div><div class="bg1">
> Mairie d'Ivry</div><div class="schmsg1"><b>1 mn</b></div><div class="bg3">
> Villejuif Louis Aragon</div><div class="schmsg3"><b>6 mn</b></div><div class="bg1">
> Mairie d'Ivry</div><div class="schmsg1"><b>10 mn</b></div><div class="bg3">
> Villejuif Louis Aragon</div><div class="schmsg3"><b>15 mn</b> |
J'arrive à parser les horaires seuls, ou l'un des deux terminus.
Mais je n'arrive pas à tous faire en même temps.
Notamment, j'aimerais pouvoir faire un parse avec un caractère jocker pour bg1 ou bg3 et écrire bg*
Code:
1 2 3
| for o in soup.find_all('div', attrs={"class":u"bg{}".format(1)}):
# print(o.get_text())
listterminus.append(o.get_text()) |
J'ai fait une recherche et j'ai trouver regex et fnmatch, mais toutes mes tentatives pour m'en servir dans le cas que j'ai énoncé ce sont avérées infructueuses.
Quelqu'un pourrait-il m'éclairer un peu sur le sujet ?
Merci