Remplacement avec "or" dans l'expression

**Arsene12** · 24/03/2018, 13h12

Bonjour,

je souhaite remplacer un mot par un autre dans un texte dans le cas ou le mot à remplacer est suivi d'un espace ou d'une virgule.

J'ai fait ce code qui ne tient pas compte du or. Il remplace le mot1 s'il est suivi d'un espace mais ne le remplace pas s'il est suivi d'une virgule :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

contenu = contenu.replace(mot1 + (" " or ","), mot2 + (" " or ","))

Auriez-vous la solution à ce problème svp? Je vous remercie d'avance.

Cordialement,
Arsène

**wiztricks** · 24/03/2018, 14h03

Salut,

Envoyé par Arsene12

Auriez-vous la solution à ce problème svp? Je vous remercie d'avance.

Vous pouvez effectuer un premier .replace avec mot1 + ' ' et un second avec mot1 + ',' ou apprendre à utiliser les expressions régulières et le module re - mais au début çà pique les yeux -.

- W

**Arsene12** · 24/03/2018, 15h26

J'ai utilisé le module re (re import).

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

contenu = re.sub(key + (" "), value + (" "), contenu)  # ça marche

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

contenu = re.sub(key + (" " or ","), value + (" "), contenu)  # ça marche que pour " " mais pas pour ","

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

contenu = re.sub(key + (" " or ","), value + (" " or ","), contenu)  # ça marche pas et c'est normal car on ne sait pas si value doit être suivi d'un espace ou d'une virgule

Je peux faire toute une série de key + ("quelque chose") mais ça va me ralentir le programme. Il me faudrait faire un search, vérifier que ce qui est accolé juste après le key n'est pas une lettre, et remplacer alors le key par la value. Avec les expressions régulières, y'a peut-être moyen d'y arriver. Il faut déterminer la position de la dernière lettre de key.

**wiztricks** · 24/03/2018, 15h47

Envoyé par Arsene12

J'ai utilisé le module re (re import).

Si vous vous contentez de faire import re et d'essayer n'importe quoi, sûr que çà ne fonctionnera pas.
Par contre, après avoir passé 2/3 jours à apprendre ce que c'est et voir comment vous pourriez utiliser cette fonctionnalité là dans votre programme, vous aurez alors un peu plus de chances d'y arriver.
Et si vous n'avez pas 2/3 jours à passer à apprendre, rien ne vous empêche d'utiliser find pour trouver toutes les occurrences de mot1, tester le caractère suivant découper la chaîne à cet endroit le cas échéant et obtenir une liste de chaînes de caractères à "join"dre avec mot2.
Une autre solution est de découper la chaînes suivant mot1 (avec .split) çà donne une liste de chaînes de caractères. A partir de la seconde, elles commencent toutes par le caractère suivant mot1 à regrouper ou pas avec le bout qui précède. Et vous obtenez encore une liste de chaînes de caractères à "join"dre avec mot2.

Donc sans apprendre vous pourriez utiliser ce que vous savez déjà sur les chaînes de caractères...

- W

**BufferBob** · 24/03/2018, 15h51

salut,

les regex c'est à mon sens le meilleur moyen, le plus court, le plus efficace et le plus élégant, mais comme suggéré plus haut ça ne s'improvise pas, c'est un mini-langage à apprendre, ça pique un peu, mais c'est rentable

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
>>> import re
>>> liste = ['xtestx', 'xtest,', 'xtest ', ',testx', ',test,', ',test ', ' testx', ' test,', ' test ']
>>> regex = re.compile(r'\btest(?=[ ,])')
>>> result = ['{:8} ==> {}'.format(i, regex.sub('OK', i)) for i in liste]
>>> print('\n'.join(result))
xtestx   ==> xtestx
xtest,   ==> xtest,
xtest    ==> xtest
,testx   ==> ,testx
,test,   ==> ,OK,
,test    ==> ,OK
 testx   ==>  testx
 test,   ==>  OK,
 test    ==>  OK

ici j'utilise donc la regex r'\btest(?=[ ,])' :

le \b permet de s'assurer qu'on parle bien du mot "test" et non pas de la fin d'un mot comme "retest" ou "fittest", \b est donc un délimiteur de mot (word boundary), par ailleurs ça ne compte pas comme un caractère, c'est juste une balise qui marque le premier caractère du mot (donc le "t" dans "test")
la parenthèse (?=...) permet de vérifier que derrière le mot "test" on a quelque chose, mais sans que ce soit inclu dans la substitution, donc on conserve l'espace ou la virgule qui suit le mot
[ ,] sert à identifier soit un espace, soit une virgule, les caractères entre les crochets sont ceux à identifier
enfin re.sub() ne s'utilise pas comme tu le fais tu n'as pas lu la doc, ça s'utilise soit comme ça :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
```
re.sub(regex, remplacement, phrase)
```
soit comme ça :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
```
1
2
toto = re.compile(regex)
toto.sub(remplacement, phrase)
```

**Arsene12** · 24/03/2018, 16h36

J'avais pensé étendre d'un pas la sélection et vérifier que ce qui suit n'est pas une lettre. Un truc du genre : key + 1 pas == key + [^a-z]. Mais faut être expert pour réaliser ça. Comme je suis un simple débutant, plutôt que de m'embarquer là-dedans, le plus simple, c'est de faire précéder (et suivre) d'un espace les signes de ponctuation. J'éliminerai ces espaces ensuite. C'est vrai que je maîtrise pas bien le langage regex. Merci de m'avoir fourni cet exemple. Je vais tâcher de bien le comprendre, ça me permettra de progresser.

Cordialement,

**wiztricks** · 24/03/2018, 17h46

Envoyé par Arsene12

Comme je suis un simple débutant, plutôt que de m'embarquer là-dedans, le plus simple, c'est de faire précéder (et suivre) d'un espace les signes de ponctuation.

SI vous débutez, il faut déjà apprendre à jouer avec les outils de base.
Exemple, partons de:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

>>> s = 'aaaXXbbbXXaaaXXbbbXX'

Si on veut remplacer toutes les occurences de 'YY' on peut bien sûr utiliser s.replace mais aussi:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> s.split('XX')
['aaa', 'bbb', 'aaa', 'bbb', '']
>>> 'ZZ'.join(s.split('XX'))
'aaaZZbbbZZaaaZZbbbZZ'
>>>

Et si on veut remplacer les 'XX' qui ne sont pas suivis d'un "b":

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
>>> L = s.split('XX')
>>> for i, m in enumerate(L[1:], start=1):
...     if m and m[0] != 'b':
...        z = L.pop(i)
...        L[i] = L[i] + 'XX' + z
...

Ce qui permet de fabriquer les bouts où insérer la nouvelle chaîne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> L
['aaa', 'bbb', 'bbbXXaaa', '']
>>> 'ZZ'.join(L)
'aaaZZbbbZZbbbXXaaaZZ'
>>>

- W

**Arsene12** · 25/03/2018, 09h49

Merci beaucoup pour toutes ces informations.
Cordialement,
Arsène

Remplacement avec "or" dans l'expression

Python

Partager

Partager