: Bonjour, j'ai bien cherche dans le forum et je n'ai pas trouve de reponse a mesd questions concernant les expressions regulieres (mais j'ai eu des indications qui m'ont permis de mieux comprendre certaines parties de code), bref
Mon travail: extraire les noms propres d'une page html.
Ma premiere mission: colorier les noms propres avec des balises <span> (a l'aide de re.sub).
probleme: Comment colorier les noms propres d'une page html a partir de ceux que j'ai pris de cette page? (et donc comment utiliser le re.sub?)
Voila, je debute tout juste... et si vous pouviez m'aider ce serait chouette, sinon de toute facon je vais chercher a cote tout le week-end...
CODE(extrait, juste le debut):
# lire le fichier html dans une chaîne de caractères
source_html = LireFichierTexte(chemin + nom_fichier) # en encoding original
# détecter l'encoding original
encoding_original = Encoding(source_html)
# décoder encoding_original --> représentation interne unicode python
source_html = unicode(source_html, encoding_original, 'replace')
#colorier les corpus
copie_html = colorier(source_html)
#try:
# os.mkdir('copiage')
#except [Errno 17]:
# pass
ofi = open('copiage\copie.html','w')
ofi.write(copie_html)
ofi.close()
(Mon probleme est ici, mais je viens de commencer et je ne comprend pas grand chose, je comprend un peu, mais de la a modifier...)
def colorier(source_html):
#pattcomp = re.compile(u'<title>(.+)<\/title>', re.I)
copie_html = re.sub(u'<title>', u'<title ><link rel="stylesheet" href="fst.css" type="text/css">', source_html)
return copie_html
Voila... merci d'avance, si qq'un peut faire qqchose pour moi...
Partager