[Expressions Réguliéres]indexation page html

**PadawanProg** · 28/10/2005, 16h03

: Bonjour, j'ai bien cherche dans le forum et je n'ai pas trouve de reponse a mesd questions concernant les expressions regulieres (mais j'ai eu des indications qui m'ont permis de mieux comprendre certaines parties de code), bref

Mon travail: extraire les noms propres d'une page html.

Ma premiere mission: colorier les noms propres avec des balises <span> (a l'aide de re.sub).

probleme: Comment colorier les noms propres d'une page html a partir de ceux que j'ai pris de cette page? (et donc comment utiliser le re.sub?)

Voila, je debute tout juste... et si vous pouviez m'aider ce serait chouette, sinon de toute facon je vais chercher a cote tout le week-end...

CODE(extrait, juste le debut):
# lire le fichier html dans une chaÃ®ne de caractÃ¨res
source_html = LireFichierTexte(chemin + nom_fichier) # en encoding original

# dÃ©tecter l'encoding original
encoding_original = Encoding(source_html)

# dÃ©coder encoding_original --> reprÃ©sentation interne unicode python
source_html = unicode(source_html, encoding_original, 'replace')

#colorier les corpus
copie_html = colorier(source_html)
#try:
# os.mkdir('copiage')
#except [Errno 17]:
# pass
ofi = open('copiage\copie.html','w')
ofi.write(copie_html)
ofi.close()

(Mon probleme est ici, mais je viens de commencer et je ne comprend pas grand chose, je comprend un peu, mais de la a modifier...)
def colorier(source_html):
#pattcomp = re.compile(u'<title>(.+)<\/title>', re.I)
copie_html = re.sub(u'<title>', u'<title ><link rel="stylesheet" href="fst.css" type="text/css">', source_html)
return copie_html

Voila... merci d'avance, si qq'un peut faire qqchose pour moi...

**Olivier_** · 28/10/2005, 17h52

T'as tes noms propres dans un dico. Tu les récupères avec les clés :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
nps = dico.keys()

Ensuite, tu parcours la liste et tu fais le re.sub sur tous les éléments de la liste.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
for np in nps:
        source_html = re.sub(np, u'<span style="background: #f00">' + np + '</span>', source_html)

Et ça roule.

Après, reste à écrire ça dans un fichier.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
f = open('fichier.html', 'w')
f.write(source_html)
f.close()

(p.s. je dois être avec toi en TP

c'est le LTAL de Caen si je ne m'abuse !)

**PadawanProg** · 29/10/2005, 04h20

Merci pour l'aide... c tres gentil... RESOLU.

[Expressions Réguliéres]indexation page html

Python

Discussions similaires

Partager

Partager