Amélioration d'un "split" un peu évolué

Version imprimable

Bonjour,
désolé pour ce titre.

Voici mon problème : je voudrais éclater la chaîne
"Un premier test : ¨mefs et ¨mef.Encore des ¨mefs..."
sous la forme
["Un premier test : ", "¨mefs", " et ", "¨mef", ".Encore des ", "¨mefs", "..."].

J'ai fait le code suivant :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
#! /usr/bin/env python3
 
import re
 
PATTERN = re.compile("¨\w+")
 
def splitForReplace(text):
    textSplitted = []
 
    for onePieceWithNoAbrev in PATTERN.split(text):
        start = text.find(onePieceWithNoAbrev)
        end = start + len(onePieceWithNoAbrev)
 
        before = text[:start] # One possible abreviation.
        if before:
            textSplitted.append(before)
        textSplitted.append(text[start:end])
 
        text = text[end:]
 
    if text:
        textSplitted.append(text)
 
    return textSplitted
 
 
if __name__ == '__main__':
    tests = [
              'Circulez, y a rien à voir !',
              'Un premier test : ¨mefs et ¨mef.Encore des ¨mefs...',
              'Un autre test :¨mef,¨Mef, ¨MEF, ¨MeF...',
            ]
 
    for oneTest in tests:
        print( '---',
               oneTest.strip(),
               splitForReplace(oneTest),
               sep = '\n' )

Ce code renvoie :

Code:

1
2
3
4
5
6
7
8
9
---
Circulez, y a rien à voir !
['Circulez, y a rien à voir !']
---
Un premier test : ¨mefs et ¨mef.Encore des ¨mefs...
['Un premier test : ', '¨mefs', ' et ', '¨mef', '.Encore des ', '¨mefs', '...']
---
Un autre test :¨mef,¨Mef, ¨MEF, ¨MeF...
['Un autre test :', '¨mef', ',', '¨Mef', ', ', '¨MEF', ', ', '¨MeF', '...']

Tout ceci me permet de repérer les séquences ¨word pour faire des remplacements au cas par cas. Peut-être que les regex permettent directement cela...

Avez-vous d'autres méthodes à proposer ?

02/08/2010, 13h32
josmiley

on peut avoir une chaine genre:

Code:

"¨exem¨ple"

ou il y a forcement un caractere non alphabétique entre chaque portion ?

et est-ce qu' "¨" est toujours précédé d'un espace ?
02/08/2010, 14h13
rambc

Bonjour josmiley.

Citation:

Envoyé par josmiley

on peut avoir une chaine genre:

Code:

"¨exem¨ple"

Oui.

Citation:

Envoyé par josmiley

il y a forcement un caractere non alphabétique entre chaque portion ?

Non.

Citation:

Envoyé par josmiley

et est-ce qu' "¨" est toujours précédé d'un espace ?

Non.

C'est pour cela que j'ai fait la fonction ci-dessus qui au passage ne marche pas avec "xxx¨mef¨Mef..." qui doit devenir ["xxx", "¨mef", "¨Mef", "..."]. Je vais rectifier ceci.

Voici un patch résolvant le problème ci-dessus :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
#! /usr/bin/env python3
 
import re
 
PATTERN = re.compile("¨\w*")
 
def splitForReplace(text):
    textSplitted = []
 
    for onePieceWithNoAbrev in PATTERN.split(text):
        start = text.find(onePieceWithNoAbrev)
        end = start + len(onePieceWithNoAbrev)
 
        possibleAbrev = text[:start]
        onlyText = text[start:end]
 
        if possibleAbrev:
            for x in possibleAbrev.split('¨'):
                if x:
                    textSplitted.append('¨' + x)
 
        if onlyText:
            textSplitted.append(onlyText)
 
        text = text[end:]
 
    if text:
        textSplitted.append(text)
 
    return textSplitted
 
 
if __name__ == '__main__':
    tests = [
              'Circulez, y a rien à voir !',
              'Un premier test : ¨mefs et ¨mef.Encore des ¨mefs...',
              'Un autre test :¨mef,¨Mef, ¨MEF, ¨MeF...',
              'xxx¨mef¨Mef ...',
            ]
 
    for oneTest in tests:
        print( '---',
               oneTest.strip(),
               splitForReplace(oneTest),
               sep = '\n' )

Une fois lancé, on obtient :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
---
Circulez, y a rien à voir !
['Circulez, y a rien à voir !']
---
Un premier test : ¨mefs et ¨mef.Encore des ¨mefs...
['Un premier test : ', '¨mefs', ' et ', '¨mef', '.Encore des ', '¨mefs', '...']
---
Un autre test :¨mef,¨Mef, ¨MEF, ¨MeF...
['Un autre test :', '¨mef', ',', '¨Mef', ', ', '¨MEF', ', ', '¨MeF', '...']
---
xxx¨mef¨Mef ...
['xxx', '¨mef', '¨Mef', ' ...']

Je l'ai testé en Python 2.6, mais cela devrait fonctionner en Python 3:

Code:

1
2
3
4
5
6
import re
from itertools import chain
 
PATTERN = re.compile('([^¨]*)(¨\w+)?')
def split_for_replace(text):
    return filter(None, chain.from_iterable(PATTERN.findall(text)))

02/08/2010, 16h33
rambc

Merci. :ccool:

Cela fonction sous Python3, et c'est bien plus court (même si on utilise la grande artillerie).
02/08/2010, 17h06
dividee

La grande artillerie, c'est quoi ?
"filter" est un built-in
"chain.from_iterable" est juste la façon d'épeler "flatten" en python ("flatten" en built-in aurait été sympa mais...)
02/08/2010, 19h28
rambc

Ce n'est pas un reproche. C'est juste pour dire que l'on fait appel aux bibliothèques standards.

Ceci me va parfaitement. Je l'ai même intégré dans mon projet.

Citation:

Envoyé par rambc

Tout ceci me permet de repérer les séquences ¨word pour faire des remplacements au cas par cas. Peut-être que les regex permettent directement cela...

Est-ce que ceci ne suffirait pas ?
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 >>> import re >>> s = "Un premier test : ¨mefs et ¨mef.Encore des ¨mefs..." >>> s 'Un premier test : ¨mefs et ¨mef.Encore des ¨mefs...' >>> pattern = r"¨(\w+)" >>> def remplacement(match): ... print("Je remplace " + match.group(1)) ... return "remplacement" ... >>> re.sub(pattern, remplacement, s) Je remplace mefs Je remplace mef Je remplace mefs 'Un premier test : remplacement et remplacement.Encore des remplacement...'

02/08/2010, 22h00
rambc

Merci mais en fait suivant la chaîne "¨word" obtenue, le remplacement sera différent. C'est ce que j'entendais par au cas par cas.
Par exemple, j'associe "¨py" à "Python le fabuleux", et "¨VBA" à "Very Bad Application".
Dans ce cas, je veux transformer
"Qui ne connait pas ¨py ? J'ai commencé avec ¨VBA et je ne voudrais plus avoir à l'utiliser. Par contre, ceci n'est pas une ¨abréviation."
en
"Qui ne connait pas Python le fabuleux ? J'ai commencé avec Very Bad Application et je ne voudrais plus avoir à l'utiliser. Par contre, ceci n'est pas une ¨abréviation.".

Eh bien, un peu d'adaptation suffira... Je présume que tu voudras stocker les remplacements dans un dictionnaire.

Voici une possibilité :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
>>> class Remplaceur(dict):
...     pattern = re.compile(r"¨(\w+)")
...     
...     def traduire(self, string):
...         return self.pattern.sub(self.remplacer, string)
...     
...     def remplacer(self, match):
...         return self.get(match.group(1), match.group(0))
... 
>>> string = "Qui ne connait pas ¨py ? J'ai commencé avec ¨VBA et je ne voudrais plus avoir à l'utiliser. Par contre, ceci n'est pas une ¨abréviation."
>>> r = Remplaceur()
>>> r["py"] = "Python le fabuleux et l'unique"
>>> r["VBA"] = "Very Bad Application"
>>> r.traduire(string)
"Qui ne connait pas Python le fabuleux et l'unique ? J'ai commencé avec Very Bad Application et je ne voudrais plus avoir à l'utiliser. Par contre, ceci n'est pas une ¨abréviation."

En passant, la méthode str.format offre ce genre d'outils.

Code:

1
2
3
>>> d = {"monde":"Python"}
>>> "Bonjour {monde}".format(**d)
'Bonjour Python'

03/08/2010, 11h27
rambc

Bonjour.

Citation:

Envoyé par Antoine_935

Eh bien, un peu d'adaptation suffira... Je présume que tu voudras stocker les remplacements dans un dictionnaire.

Merci. J'ai adapté mon code avec ta méthode. :massacre: Résultat : un code court. Génial ! :ccool:

Citation:

Envoyé par Antoine_935

En passant, la méthode str.format offre ce genre d'outils.

On est d'accord mais dans le cadre de mon projet les abréviations s'écrivent ¨nom_abrev.