IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

Parser un code html avec un pattern contenant un charactère joker.


Sujet :

Réseau/Web Python

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2008
    Messages
    162
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2008
    Messages : 162
    Points : 66
    Points
    66
    Par défaut Parser un code html avec un pattern contenant un charactère joker.
    Bonjour,

    Je cherche à récupérer les horaires des métro sur le site de la ratp.
    Mon problème est le suivant : pour certaines lignes, il y a une fourche et donc les horaires retournés sur le site doivent être mis en relation avec le terminus.
    Pour exemple la ligne 7, station jussieu :
    quand on regarde la page source il y a des balises
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    </div><div class="subtitle">Direction&nbsp;<b class="bwhite">Mairie d'Ivry - Villejuif Louis Aragon</b></div><div class="bg1">
              &gt;&nbsp;Mairie d'Ivry</div><div class="schmsg1"><b>1 mn</b></div><div class="bg3">
              &gt;&nbsp;Villejuif Louis Aragon</div><div class="schmsg3"><b>6 mn</b></div><div class="bg1">
              &gt;&nbsp;Mairie d'Ivry</div><div class="schmsg1"><b>10 mn</b></div><div class="bg3">
              &gt;&nbsp;Villejuif Louis Aragon</div><div class="schmsg3"><b>15 mn</b>
    J'arrive à parser les horaires seuls, ou l'un des deux terminus.
    Mais je n'arrive pas à tous faire en même temps.
    Notamment, j'aimerais pouvoir faire un parse avec un caractère jocker pour bg1 ou bg3 et écrire bg*
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    for o in soup.find_all('div', attrs={"class":u"bg{}".format(1)}):
    #   print(o.get_text())
        listterminus.append(o.get_text())
    J'ai fait une recherche et j'ai trouver regex et fnmatch, mais toutes mes tentatives pour m'en servir dans le cas que j'ai énoncé ce sont avérées infructueuses.
    Quelqu'un pourrait-il m'éclairer un peu sur le sujet ?
    Merci

  2. #2
    Expert éminent

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 300
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 300
    Points : 6 780
    Points
    6 780
    Par défaut
    Salut,

    Les regex pour parser du html est généralement déconseillé, la syntaxe des pages n'étant pas toujours très soignée.

    Par contre avec HTMLParser tu peux travailler avec plus de précision.

    Exemple avec ta page:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
     
    # -*- coding: utf-8 -*-
     
    from html.parser import HTMLParser
     
    class RATPParser(HTMLParser):
        def __init__(self):
            super().__init__()
            self.in_station = False
            self.in_direction = False
            self.in_direction = False
            self.in_timing = False
            self.in_bg = False
            self.timing = {}
     
        def handle_starttag(self, tag, attrs):
            if self.in_timing:
                if attrs == [('class', 'seppage')]:
                    self.in_timing = False
                    self.in_bg = False
                elif tag == "div" and 'class' in attrs[0]:
                    if attrs[0][1].startswith(('bg', 'schmsg')):
                        self.in_bg = True
     
        def handle_data(self, data):
            data = data.strip()
            if data:
                if self.in_timing:
                    if self.in_bg:
                        self.timing['next_trains'].append(data)
                if self.in_station:
                    self.timing['station'] = data
                    self.in_station = False
                elif self.in_direction:
                    self.timing['direction'] = data
                    self.timing['next_trains'] = []
                    self.in_direction = False
                    self.in_timing = True
                elif data == 'Station':
                    self.in_station = True
                elif data == 'Direction':
                    self.in_direction = True
     
    if __name__ == '__main__':
        with open('/home/vincent/Bureau/ratp.html', 'r') as inf:
            content = inf.read()
            parser = RATPParser()
            parser.feed(content)
            tmg = parser.timing
            if tmg:
                print('Station:\t%s\nDirections:\t%s' %(tmg['station'], tmg['direction']))
                for i in range(0, len(tmg['next_trains']), 2):
                    print('  %-28s:%-10s' % (tmg['next_trains'][i], tmg['next_trains'][i+1]))
    ça donne ça:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    Station:	Jussieu
    Directions:	Mairie d'Ivry - Villejuif Louis Aragon
      Mairie d'Ivry               :2 mn      
      Villejuif Louis Aragon      :7 mn      
      Villejuif Louis Aragon      :Train retarde
      Mairie d'Ivry               :15 mn

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2008
    Messages
    162
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2008
    Messages : 162
    Points : 66
    Points
    66
    Par défaut
    Je te remercie pour ta réponse.
    Maintenant je vais étudier ça de près parce que j'avoue qu'il y a des pans entiers où je ne comprends absolument rien.
    Je te poserais peut-être quelques questions supplémentaires.

    Merci

  4. #4
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut,

    Citation Envoyé par Erlen Voir le message
    J'arrive à parser les horaires seuls, ou l'un des deux terminus.
    Mais je n'arrive pas à tous faire en même temps.
    Notamment, j'aimerais pouvoir faire un parse avec un caractère jocker pour bg1 ou bg3 et écrire bg*
    Pour ce qui est de beautifoulsoup, vous pouvez passer une fonction en argument:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    for z in soup.find_all(class_=lambda s: s in ["bg2", "bg3"]): 
            ...
    Et cette fonction peut être un re....
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    for z in soup.find_all(class_=re.compile( 'bg[2|3]')):
    voir la documentation.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

Discussions similaires

  1. Editer code HTML avec swing
    Par lilou77 dans le forum AWT/Swing
    Réponses: 5
    Dernier message: 01/02/2007, 17h58
  2. comment parser du code HTML
    Par niouze dans le forum Général Dotnet
    Réponses: 1
    Dernier message: 12/01/2007, 10h28
  3. interpretation code html avec Persits.MailSender
    Par boss_gama dans le forum ASP
    Réponses: 11
    Dernier message: 07/07/2006, 10h41
  4. Parse code HTML avec PHP
    Par naourass dans le forum Langage
    Réponses: 3
    Dernier message: 19/05/2006, 08h12
  5. Insertion code html avec javascript
    Par totoranky dans le forum Général JavaScript
    Réponses: 2
    Dernier message: 08/02/2006, 16h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo