Remplacement chaine exacte comportant des accents

Version imprimable

Bonjour,

Je suis en difficulté avec les regex :
je voudrais remplacer certains mots par des étiquettes du style <MOT>israélien</MOT>, mais le découpage ne se fait pas sur le mot exact. Dans mon texte, j'ai «israélien» et «lien», ce qui fait un découpage israé<MOT>lien></MOT> au lieu de <MOT>israélien></MOT> !!
Voici mon code :
Code:

1 2 3 4 5 6 7 texte = "espagnol et israélien. Voici le lien." mots = ["espagnol","israélien","lien"] for mot in mots: avant = r''\b''+mot+r''\b'' apres = r''<MOT>''+mot+r''</MOT>'' texte = re.sub(avant,apres,texte) print texte
Est-il possible d'avoir un vrai découpage sur les mots ? Je pensais que les \b suffisaient pour ne pas avoir de problèmes:?. Si je supprime l'accent sur israélien, il n'y a plus de problème donc c'est sûrement l'accent qui bloque. Mais je ne vois pas comment faire...

Merci à vous :P

07/04/2016, 08h04
VinsS

Salut,

Ajoute une espace avant 'lien' pour le différencier de la fin de 'israélien'.
07/04/2016, 11h11
sequoia
Bonjour et merci pour ta réponse.

J'ai tenté l'espace, ça marche pour l'exemple que j'avais donné mais comme les espaces ne sont pas toujours présent (oubli d'espaces après certains signes de ponctuation / titres / apostrophe "l'israélien"), ça coince de nouveau.

J'ai vu que je pouvais faire un test pour savoir si la chaine était accentuée ou non avec isalpha() qui me renvoie FALSE pour les mots accentués.
Du coup, ça me permet de faire un cas spécifique pour les mots accentués qui sont les seuls à poser problème.

Je pensais détailler tous les cas possibles, mais quand je mets :
Code:

1 2 avant = r"\'"+mot+r"\b" apres = r"\'<MOT>"+mot+r"</MOT>"
pour le cas avec apostrophe, ça ne fonctionne pas (que je mette ou non le slash, le "r" ou le \b d'ailleurs)

Si vous avez d'autres idées, merci beaucoup !!
07/04/2016, 11h24
__dardanos__

Salut,
J'ai essayé en ajoutant le flag unicode à la regex, et en préfixant les chaines d'un "u", et en jouant sur locale, mais ça ne fonctionne pas avec la version de la branche 2 (2.6). Un bug ?
Par contre, ça fonctionne correctement avec la branche 3.

Tu dois traiter chaque mot du texte par rapport à ta liste et non pas le contraire.

Ceci:
Code:

1 2 3 4 5 6 7 8 9 10 11 >>> texte = u"espagnol et israélien. Voici le lien." >>> mots = [u"espagnol", u"israélien", u"lien"] >>> tokens = texte.split() >>> for idx, l in enumerate(tokens): ... if l in mots: ... tokens[idx] = u"<MOT>%s</MOT>" % l ... >>> text = u" ".join(tokens) >>> text u'<MOT>espagnol</MOT> et isra\xe9lien. Voici le lien.'
montre le principe mais montre aussi le problème des mots qui finissent une phrase, ta liste de mots devrait donc aussi considérer les variantes avec point ou toute autre ponctuation et, éventuellement, majuscule ...etc.

Sinon, il suffit d'activer le flag re.U[NICODE] avec Python2.7.

Code:

1
2
3
4
5
6
7
8
9
10
11
$  python2.7
Python 2.7.10 (default, Jan 15 2016, 14:56:07) 
[GCC 4.4.5] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> txt = u"espagnol et israélien. Voici le lien."
>>> for mot in [u"espagnol", u"israélien", u"lien"]:
...     txt = re.sub(ur'\b(%s)\b' % (mot), ur'<MOT>\1</MOT>', txt, flags=re.U)
... 
>>> txt
u'<MOT>espagnol</MOT> et <MOT>isra\xe9lien</MOT>. Voici le <MOT>lien</MOT>.'

08/04/2016, 01h04
sequoia

Merci à tous les deux VinSs et Dardanos,

Je retiens la dernière solution : ça fonctionne et pas besoin de spécifier les différents cas.
Bref, super !!

Encore merci :P