Bonjour à tous/toutes,
N'ayant pas trouvé de réponse en googlant ou sur le forum, je me décide à poser la question qui me turlupine depuis plusieurs jours.
J'ai codé un petit script Python qui va parser une page web. Le but est de parcourir la page à la recherche de plusieurs mots-clefs sous forme d'expressions régulières.
Ces regexp sont un input sous forme de fichier texte, sauvegardé en utf-8 et contenant des accents.
Je lis donc mon contenu web, et fait une boucle pour passer ma liste de mots sur le contenu web.
Un exemple de fichier texte contenant les expressions régulières :
La partie de code qui parse mon contenu web avec chaque ligne de ce fichier :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6 hiver printemps été [eé]t[ée] test
Les résultats sont curieux:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7 for word in mywordslist: word=word.strip() print "utilisation du mot : ",word compile_obj = re.compile(word, re.IGNORECASE) match_obj = compile_obj.search(webpage_html) print "MATCH:",match_obj
Sachant que ma page web contient bien les termes "été" :
l'expression régulière "été" matche.
Par contre, "[eé]t[ée]" ne matche pas. (résultat None)
Je soupçonne un problème d'encodage ou autre, mais quand je print "word", je vois bien les accents, je ne vois pas où serait le bug.
Merci d'avance, je sèche là :-(
Partager