IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

help module re


Sujet :

Python

  1. #1
    Membre averti
    Inscrit en
    Juillet 2005
    Messages
    26
    Détails du profil
    Informations forums :
    Inscription : Juillet 2005
    Messages : 26
    Par défaut help module re
    j'ai une chaine "<html>hello</html></a>world<body>ok"

    et je veu recuperer le texte qui ya dedan en utilisant une regex , ce qui doit me renvoyer helloworldok sans les tags html

    j'ai fai un essaye , je suis proche mais aussi loin de la solution !!!!

    voila mon code

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    >>> from re import findall
    >>> chaine = """<html>hello</html></a>world<body>ok"""
    >>> print findall('[a-z].*?[^\<\>][a-z]',chaine)
    ['htm', 'l>he', 'llo', 'htm', 'l></a', 'wor', 'ld<bo', 'dy>ok']
    >>>
    ce serai quoi la bonne regex ? a votre avis ?


    Merci

  2. #2
    Membre émérite

    Profil pro
    Inscrit en
    Août 2004
    Messages
    723
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2004
    Messages : 723
    Par défaut
    Tu te compliques la vie
    Qu'est-ce qu'est une balise HTML ? Un caractère <, puis n'importe quoi jusqu'au > le plus proche.
    En terme de regex : <.+?> avec le mode S
    Traduction Python :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    import re
    chaine = "..."
    regex = re.compile('<.+?>', re.S)
    chaine_sans_html = regex.sub('', chaine)

  3. #3
    Membre averti
    Inscrit en
    Juillet 2005
    Messages
    26
    Détails du profil
    Informations forums :
    Inscription : Juillet 2005
    Messages : 26
    Par défaut
    oui je sais , j'avai cette solution d'extraire les tags html puis par la suite les remplacer par le vide , mais ce que je cherche c'est l'expression qui va me faire ca directement , (c'est purement educatif)

    merci dejas , mais je veu l'expression

  4. #4
    Invité
    Invité(e)
    Par défaut
    Citation Envoyé par UN|X`
    oui je sais , j'avai cette solution d'extraire les tags html puis par la suite les remplacer par le vide , mais ce que je cherche c'est l'expression qui va me faire ca directement , (c'est purement educatif)

    merci dejas , mais je veu l'expression
    Ouais certes... Mais en fait je pense que c'est tendu, genre quand tu vas avoir des balises imbriquées et tout... Enfin déjà en l'occurence c'est pas évident, pourtant j'ai fait des regexp tout l'aprem hier

    Je pensais a un truc comme ça mais a priori ça le fait pas :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    motif = "(<.*?>(.*?)<.*?>)*"

  5. #5
    Membre émérite
    Avatar de GnuVince
    Profil pro
    Développeur informatique
    Inscrit en
    Avril 2004
    Messages
    679
    Détails du profil
    Informations personnelles :
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Avril 2004
    Messages : 679
    Par défaut
    Quand vient le temps d'extraire des données d'un fichier X/HTML, utilise la librairie BeautifulSoup.

  6. #6
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 43
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Par défaut
    Ou expat, en standard dans Python.

  7. #7
    Membre Expert Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Par défaut
    L'avantage de BeautifulSoup est qu'il peut parser des fichiers mal formés (balise oubliée, imbriquation incorrecte, etc...), ce est très souvent le cas !

Discussions similaires

  1. [HELP] Python 3.2 (Module TKINTER)
    Par KingKyser dans le forum Général Python
    Réponses: 2
    Dernier message: 25/04/2015, 17h54
  2. tSchemaCompliance module help
    Par Slackk dans le forum Développement de jobs
    Réponses: 7
    Dernier message: 16/07/2013, 16h32
  3. probleme d'install module perl, help
    Par donny dans le forum Modules
    Réponses: 1
    Dernier message: 05/02/2007, 10h55
  4. Help :Problème de clignotement
    Par LE CHAKAL dans le forum Composants VCL
    Réponses: 6
    Dernier message: 14/08/2002, 10h53
  5. Help InnoSetup ou Installshield
    Par buzz dans le forum Outils
    Réponses: 4
    Dernier message: 30/07/2002, 15h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo