remplacements via regexp

Version imprimable

07/09/2011, 14h39
sluke

remplacements via regexp
Bonjour,

J'aimerai faire un petit script python pour corriger des erreurs classiques liées à de l'OCR.
Le caractère 'l' est souvent identifié par 'I' selon la police de caractères.

J'ai regardé via le module re. Je pense être prêt de la solution mais je bloque.

Voici ce que j'ai fait :
Code:

1 2 import re re.sub('[a-z]+I+[a-z]+', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')
Voici ce que ça donne :

Code:

La l l bleu sur Ie persiI vert. Il ...

Il repère bien une partie des bons mots mais le replacement est foireux.

Une idée ?
07/09/2011, 14h53
xavier-Pierre

Code:

re.sub('I', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')
07/09/2011, 15h19
sluke

Citation:

Envoyé par xavier-Pierre

Code:

re.sub('I', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')

ce bout de code donne ceci :

Code:

La belle boule bleu sur le persil vert. ll ...

A la limite un str.replace() aurait suffit. Mais le problème c'est que tous les 'I' ne sont pas forcément des 'l'

Je souhaite procéder comme ceci :
- identifier les mots dont un 'I' est entouré d'au moins une lettre minuscule.
- les corriger

Je pense que ça va supprimer plus de 70% des problèmes.
Pour les mots commençant et finissant par I, ce sera difficile de savoir si c'est un nom propre ou autres chose. Donc ce sera une correction manuelle.
07/09/2011, 19h59
mont29
Je te propose plutôt d’utiliser les lookahead/lookbehind, qui ont l’avantage de na pas consommer, donc de ne pas être remplacés par sub*!

Voici ma proposition, qui change en l*:
* Un I précédé d’une minuscule ou d’un autre I (très rare d’avoir deux II, et ça permet de s’occuper du cas du double ll…);
* Un I non-précédé d’un ., ! ou ? avec espace, et suivi d’une minuscule ou d’un autre I (le lookbehind négatif permet de ne pas transformer les I de début de phrase en l).
Code:

1 2 import re re.sub(r'(?<=[a-zI])I|(?<![.!?] )I(?=[a-zI])', r'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')
Note que cela reste de toute façon fort imparfait, il y a trop de possibilités différentes pour que ça le soit*! ;)
08/09/2011, 13h04
sluke

Merci mont29, c'est ce que je cherchais.

J'ai cependant une question sur le code :

Pourquoi le 'r' devant les expressions ?

Concernant les lookahead/lookbehind, j'ai regardé sur le net histoire de comprendre comment ça fonctionne, ça m'a l'air assez obscure comme truc...
08/09/2011, 20h08
mont29

Le r devant une chaîne python indique qu’il s’agit d’une chaîne raw (brute), c’est à dire que les séquences d’échappement (genre \n pour aller à la ligne) sont retranscrites littéralement, et non interprétées. Cela t’évite d’avoir à échapper les backslashes à tout bout de champ*!

Concernant les lookahead/lookbehind, ce n’est pas si compliqué que ça, il s’agit simplement de voir si ce qui est “matché” par le motif “normal” est (ou pas) immédiatement précédé/suivi de quelque chose qui “matche” le motif contenu dans le lookbehind/lookahead… :)
09/09/2011, 11h27
sluke

Pratique ce r'', je connaisais pas.

J'ai trouvé un bon petit lien pour des explications sur les lookbehind/lookahead :

http://blog.lilhoot.eu/regex-et-preg...les-chaines,a3

Merci à tous