IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

[Expressions Réguliéres]indexation page html


Sujet :

Python

  1. #1
    Candidat au Club
    Profil pro
    Inscrit en
    Janvier 2005
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2005
    Messages : 2
    Points : 2
    Points
    2
    Par défaut [Expressions Réguliéres]indexation page html
    : Bonjour, j'ai bien cherche dans le forum et je n'ai pas trouve de reponse a mesd questions concernant les expressions regulieres (mais j'ai eu des indications qui m'ont permis de mieux comprendre certaines parties de code), bref

    Mon travail: extraire les noms propres d'une page html.

    Ma premiere mission: colorier les noms propres avec des balises <span> (a l'aide de re.sub).

    probleme: Comment colorier les noms propres d'une page html a partir de ceux que j'ai pris de cette page? (et donc comment utiliser le re.sub?)

    Voila, je debute tout juste... et si vous pouviez m'aider ce serait chouette, sinon de toute facon je vais chercher a cote tout le week-end...



    CODE(extrait, juste le debut):
    # lire le fichier html dans une chaîne de caractères
    source_html = LireFichierTexte(chemin + nom_fichier) # en encoding original

    # détecter l'encoding original
    encoding_original = Encoding(source_html)

    # décoder encoding_original --> représentation interne unicode python
    source_html = unicode(source_html, encoding_original, 'replace')

    #colorier les corpus
    copie_html = colorier(source_html)
    #try:
    # os.mkdir('copiage')
    #except [Errno 17]:
    # pass
    ofi = open('copiage\copie.html','w')
    ofi.write(copie_html)
    ofi.close()

    (Mon probleme est ici, mais je viens de commencer et je ne comprend pas grand chose, je comprend un peu, mais de la a modifier...)
    def colorier(source_html):
    #pattcomp = re.compile(u'<title>(.+)<\/title>', re.I)
    copie_html = re.sub(u'<title>', u'<title ><link rel="stylesheet" href="fst.css" type="text/css">', source_html)
    return copie_html

    Voila... merci d'avance, si qq'un peut faire qqchose pour moi...

  2. #2
    Membre habitué
    Avatar de Olivier_
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    111
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2005
    Messages : 111
    Points : 127
    Points
    127
    Par défaut
    T'as tes noms propres dans un dico. Tu les récupères avec les clés :
    Ensuite, tu parcours la liste et tu fais le re.sub sur tous les éléments de la liste.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    for np in nps:
            source_html = re.sub(np, u'<span style="background: #f00">' + np + '</span>', source_html)
    Et ça roule.

    Après, reste à écrire ça dans un fichier.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    f = open('fichier.html', 'w')
    f.write(source_html)
    f.close()
    (p.s. je dois être avec toi en TP c'est le LTAL de Caen si je ne m'abuse !)

  3. #3
    Candidat au Club
    Profil pro
    Inscrit en
    Janvier 2005
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2005
    Messages : 2
    Points : 2
    Points
    2
    Par défaut merci bcp
    Merci pour l'aide... c tres gentil... RESOLU.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [RegEx] Expression régulière pour code HTML et saut de ligne
    Par mastergalaxy dans le forum Langage
    Réponses: 3
    Dernier message: 19/04/2014, 08h54
  2. Expression régulière pour nettoyer HTML
    Par jeyce dans le forum Langage
    Réponses: 0
    Dernier message: 16/02/2010, 23h47
  3. Expression régulière sur code HTML
    Par goliath dans le forum Général Python
    Réponses: 4
    Dernier message: 03/09/2009, 18h02
  4. [RegEx] Expression régulière et balises html
    Par AMINE_ dans le forum Langage
    Réponses: 5
    Dernier message: 05/01/2008, 11h48
  5. [Regexp]Expressions régulières et code HTML
    Par Rayool dans le forum Collection et Stream
    Réponses: 13
    Dernier message: 22/09/2006, 10h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo