remplacements via regexp

**sluke** · 07/09/2011, 14h39

Bonjour,

J'aimerai faire un petit script python pour corriger des erreurs classiques liées à de l'OCR.
Le caractère 'l' est souvent identifié par 'I' selon la police de caractères.

J'ai regardé via le module re. Je pense être prêt de la solution mais je bloque.

Voici ce que j'ai fait :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import re
re.sub('[a-z]+I+[a-z]+', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')

Voici ce que ça donne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

La l l bleu sur Ie persiI vert. Il ...

Il repère bien une partie des bons mots mais le replacement est foireux.

Une idée ?

**xavier-Pierre** · 07/09/2011, 14h53

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

re.sub('I', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')

**sluke** · 07/09/2011, 15h19

Envoyé par xavier-Pierre

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

re.sub('I', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')

ce bout de code donne ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

La belle boule bleu sur le persil vert. ll ...

A la limite un str.replace() aurait suffit. Mais le problème c'est que tous les 'I' ne sont pas forcément des 'l'

Je souhaite procéder comme ceci :
- identifier les mots dont un 'I' est entouré d'au moins une lettre minuscule.
- les corriger

Je pense que ça va supprimer plus de 70% des problèmes.
Pour les mots commençant et finissant par I, ce sera difficile de savoir si c'est un nom propre ou autres chose. Donc ce sera une correction manuelle.

**mont29** · 07/09/2011, 19h59

Je te propose plutôt d’utiliser les lookahead/lookbehind, qui ont l’avantage de na pas consommer, donc de ne pas être remplacés par sub*!

Voici ma proposition, qui change en l*:
* Un I précédé d’une minuscule ou d’un autre I (très rare d’avoir deux II, et ça permet de s’occuper du cas du double ll…);
* Un I non-précédé d’un ., ! ou ? avec espace, et suivi d’une minuscule ou d’un autre I (le lookbehind négatif permet de ne pas transformer les I de début de phrase en l).

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import re
re.sub(r'(?<=[a-zI])I|(?<![.!?] )I(?=[a-zI])', r'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')

Note que cela reste de toute façon fort imparfait, il y a trop de possibilités différentes pour que ça le soit*!

**sluke** · 08/09/2011, 13h04

Merci mont29, c'est ce que je cherchais.

J'ai cependant une question sur le code :

Pourquoi le 'r' devant les expressions ?

Concernant les lookahead/lookbehind, j'ai regardé sur le net histoire de comprendre comment ça fonctionne, ça m'a l'air assez obscure comme truc...

**mont29** · 08/09/2011, 20h08

Le r devant une chaîne python indique qu’il s’agit d’une chaîne raw (brute), c’est à dire que les séquences d’échappement (genre \n pour aller à la ligne) sont retranscrites littéralement, et non interprétées. Cela t’évite d’avoir à échapper les backslashes à tout bout de champ*!

Concernant les lookahead/lookbehind, ce n’est pas si compliqué que ça, il s’agit simplement de voir si ce qui est “matché” par le motif “normal” est (ou pas) immédiatement précédé/suivi de quelque chose qui “matche” le motif contenu dans le lookbehind/lookahead…

**sluke** · 09/09/2011, 11h27

Pratique ce r'', je connaisais pas.

J'ai trouvé un bon petit lien pour des explications sur les lookbehind/lookahead :

http://blog.lilhoot.eu/regex-et-preg...les-chaines,a3

Merci à tous

remplacements via regexp

Python

Discussions similaires

Partager

Partager