Bonjour,
J'aimerai faire un petit script python pour corriger des erreurs classiques liées à de l'OCR.
Le caractère 'l' est souvent identifié par 'I' selon la police de caractères.
J'ai regardé via le module re. Je pense être prêt de la solution mais je bloque.
Voici ce que j'ai fait :
Voici ce que ça donne :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 import re re.sub('[a-z]+I+[a-z]+', 'l', 'La beIIe bouIe bleu sur Ie persiI vert. Il ...')
Il repère bien une partie des bons mots mais le replacement est foireux.
Code : Sélectionner tout - Visualiser dans une fenêtre à part La l l bleu sur Ie persiI vert. Il ...
Une idée ?
Partager