Bonjour,

J'aimerai faire un petit script python pour corriger des erreurs classiques liées à de l'OCR.
Le caractère 'l' est souvent identifié par 'I' selon la police de caractères.

J'ai regardé via le module re. Je pense être prêt de la solution mais je bloque.

Voici ce que j'ai fait :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
import re
re.sub('[a-z]+I+[a-z]+', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')
Voici ce que ça donne :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
La l l bleu sur Ie persiI vert. Il ...
Il repère bien une partie des bons mots mais le replacement est foireux.

Une idée ?