problème regexp et accents

**umbre42** · 30/06/2011, 11h15

Bonjour à tous/toutes,

N'ayant pas trouvé de réponse en googlant ou sur le forum, je me décide à poser la question qui me turlupine depuis plusieurs jours.

J'ai codé un petit script Python qui va parser une page web. Le but est de parcourir la page à la recherche de plusieurs mots-clefs sous forme d'expressions régulières.
Ces regexp sont un input sous forme de fichier texte, sauvegardé en utf-8 et contenant des accents.

Je lis donc mon contenu web, et fait une boucle pour passer ma liste de mots sur le contenu web.

Un exemple de fichier texte contenant les expressions régulières :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
hiver
printemps
été
[eé]t[ée]
test

La partie de code qui parse mon contenu web avec chaque ligne de ce fichier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
		for word in mywordslist:
			word=word.strip()
			print "utilisation du mot : ",word
			compile_obj = re.compile(word,  re.IGNORECASE)
			match_obj = compile_obj.search(webpage_html)
			print "MATCH:",match_obj

Les résultats sont curieux:

Sachant que ma page web contient bien les termes "été" :

l'expression régulière "été" matche.
Par contre, "[eé]t[ée]" ne matche pas. (résultat None)

Je soupçonne un problème d'encodage ou autre, mais quand je print "word", je vois bien les accents, je ne vois pas où serait le bug.

Merci d'avance, je sèche là :-(

**mont29** · 30/06/2011, 13h22

Oui, il s’agit certainement d’un problème d’encodage… Tu es manifestement sous python 2.x (normalement, sous python 3, il ne devrait pas y avoir ce genre de problèmes).

Tu ne donnes pas beaucoup (pas assez) de code, mais je pense qu’en fait, il te faut t’assurer que tes deux éléments (la regex et webpage_htlm) sont bien des objets unicode, et pas des str encodés en utf-8*!

Or, il me semble que le fait de lire un fichier en mode texte ne renvoie pas des unicode, mais toujours des str… Donc, il faut faire quelque chose dans ce genre, tant sur la page web que les regex, avant de faire ta comparaison*:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
webpage_html = webpage_html.decode('utf-8') # ou unicode(webpage_html)
for word in mywordslist:
    word = word.strip()
    word = word.decode('utf-8') # ou unicode(word)
    print "utilisation du mot : ",word
    # Pas besoin de compiler la regex ici, tu ne l’utilises qu’une seule fois*!
    match_obj =re.search(word, webpage_html, re.IGNORE_CASE)
    print "MATCH:",match_obj.

**umbre42** · 30/06/2011, 15h14

Bingo !

Problème résolu avec "decode('utf-8')" sur la page web et la liste de mots.

Ca marche niquel :-)

Merci beaucoup mont29 !

problème regexp et accents

Python

Vue hybride

Discussions similaires

Partager

Partager