Script OCR en masse

**lejimi** · 23/04/2016, 08h02

Bonjour,

j'ai un client qui voudrait que je lui fasse la saisie de tout un livre ancien. Pour gagner du temps, j'ai tout de suite pensé à l'OCR avec Tesseract.

En m'inspirant de cette page : https://www.linux.com/learn/how-scan...n-source-tools j'ai créé ce petit script (mon tout premier) qui a l'air de fonctionner : mass-ocr.txt Il est sans doute perfectible et je suis ouvert à toute suggestion.

Ce que je peine à comprendre, c'est la fin de l'article de linux.com qui propose un petit script de nettoyage des espaces : le script nettoie un texte sélectionné. Mais l'auteur ne précise pas dans quel contexte doit être faite cette sélection. On peut la faire dans n'importe-quel soft ? De plus je ne vois rien dans le script qui mentionne la sélection comme étant le texte sur lequel travailler (mais je débute en shell…)

Au final, je me dis que pour nettoyer le résultat de l'OCR, un script Python serait plus adapté en raison des outils de manipulation de chaînes que propose ce langage. D'où une dernière question : si je place ce script Python dans /usr/local/bin est-ce que mon, script mass-ocr pourra l'appeler comme s'il s'agissait de n'importe quelle commande ordinaire ? Inversement, si à l'avenir, je crée un script Python pour inclure l'ensemble de mes outils dans une interface graphique, est-ce que celui-ci pourra appeler le script-shell ?

Ah ! Je suis sous Debian 8, XFCE.

Merci de votre aide !

Edit : je tiens mon interface graphique ! gedit peut aussi bien lancer des scripts shell que des scripts Python comme si c'était des greffons.

Script OCR en masse

Shell et commandes GNU

Mode arborescent

Discussions similaires

Partager

Partager