Bonjour,
J'aimerai faire un petit script python pour corriger des erreurs classiques liées à de l'OCR.
Le caractère 'l' est souvent identifié par 'I' selon la police de caractères.
J'ai regardé via le module re. Je pense être prêt de la solution mais je bloque.
Voici ce que j'ai fait :
Voici ce que ça donne :Code:
1
2 import re re.sub('[a-z]+I+[a-z]+', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')
Il repère bien une partie des bons mots mais le replacement est foireux.Code:La l l bleu sur Ie persiI vert. Il ...
Une idée ?