Remplacement chaine exacte comportant des accents [Débutant(e)]

**sequoia** · 07/04/2016, 01h21

Bonjour,

Je suis en difficulté avec les regex :
je voudrais remplacer certains mots par des étiquettes du style <MOT>israélien</MOT>, mais le découpage ne se fait pas sur le mot exact. Dans mon texte, j'ai «israélien» et «lien», ce qui fait un découpage israé<MOT>lien></MOT> au lieu de <MOT>israélien></MOT> !!
Voici mon code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
texte = "espagnol et israélien. Voici le lien."
mots = ["espagnol","israélien","lien"]
for mot in mots:
      avant = r''\b''+mot+r''\b''
      apres = r''<MOT>''+mot+r''</MOT>''
texte = re.sub(avant,apres,texte)
print texte

Est-il possible d'avoir un vrai découpage sur les mots ? Je pensais que les \b suffisaient pour ne pas avoir de problèmes

. Si je supprime l'accent sur israélien, il n'y a plus de problème donc c'est sûrement l'accent qui bloque. Mais je ne vois pas comment faire...

Merci à vous

**VinsS** · 07/04/2016, 07h04

Salut,

Ajoute une espace avant 'lien' pour le différencier de la fin de 'israélien'.

**sequoia** · 07/04/2016, 10h11

Bonjour et merci pour ta réponse.

J'ai tenté l'espace, ça marche pour l'exemple que j'avais donné mais comme les espaces ne sont pas toujours présent (oubli d'espaces après certains signes de ponctuation / titres / apostrophe "l'israélien"), ça coince de nouveau.

J'ai vu que je pouvais faire un test pour savoir si la chaine était accentuée ou non avec isalpha() qui me renvoie FALSE pour les mots accentués.
Du coup, ça me permet de faire un cas spécifique pour les mots accentués qui sont les seuls à poser problème.

Je pensais détailler tous les cas possibles, mais quand je mets :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
avant = r"\'"+mot+r"\b"    
apres = r"\'<MOT>"+mot+r"</MOT>"

pour le cas avec apostrophe, ça ne fonctionne pas (que je mette ou non le slash, le "r" ou le \b d'ailleurs)

Si vous avez d'autres idées, merci beaucoup !!

**__dardanos__** · 07/04/2016, 10h24

Salut,
J'ai essayé en ajoutant le flag unicode à la regex, et en préfixant les chaines d'un "u", et en jouant sur locale, mais ça ne fonctionne pas avec la version de la branche 2 (2.6). Un bug ?
Par contre, ça fonctionne correctement avec la branche 3.

**VinsS** · 07/04/2016, 12h12

Tu dois traiter chaque mot du texte par rapport à ta liste et non pas le contraire.

Ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
>>> texte = u"espagnol et israélien. Voici le lien."
>>> mots = [u"espagnol", u"israélien", u"lien"]
>>> tokens = texte.split()
>>> for idx, l in enumerate(tokens):
...     if l in mots:
...             tokens[idx] = u"<MOT>%s</MOT>" % l
... 
>>> text = u" ".join(tokens)
>>> text
u'<MOT>espagnol</MOT> et isra\xe9lien. Voici le lien.'

montre le principe mais montre aussi le problème des mots qui finissent une phrase, ta liste de mots devrait donc aussi considérer les variantes avec point ou toute autre ponctuation et, éventuellement, majuscule ...etc.

**__dardanos__** · 07/04/2016, 13h57

Sinon, il suffit d'activer le flag re.U[NICODE] avec Python2.7.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
$  python2.7
Python 2.7.10 (default, Jan 15 2016, 14:56:07) 
[GCC 4.4.5] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> txt = u"espagnol et israélien. Voici le lien."
>>> for mot in [u"espagnol", u"israélien", u"lien"]:
...     txt = re.sub(ur'\b(%s)\b' % (mot), ur'<MOT>\1</MOT>', txt, flags=re.U)
... 
>>> txt
u'<MOT>espagnol</MOT> et <MOT>isra\xe9lien</MOT>. Voici le <MOT>lien</MOT>.'

**sequoia** · 08/04/2016, 00h04

Merci à tous les deux VinSs et Dardanos,

Je retiens la dernière solution : ça fonctionne et pas besoin de spécifier les différents cas.
Bref, super !!

Encore merci

Remplacement chaine exacte comportant des accents [Débutant(e)]

Python

Discussions similaires

Partager

Partager