IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes GNU Discussion :

Script OCR en masse


Sujet :

Shell et commandes GNU

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre expérimenté
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Billets dans le blog
    2
    Par défaut Script OCR en masse
    Bonjour,

    j'ai un client qui voudrait que je lui fasse la saisie de tout un livre ancien. Pour gagner du temps, j'ai tout de suite pensé à l'OCR avec Tesseract.

    En m'inspirant de cette page : https://www.linux.com/learn/how-scan...n-source-tools j'ai créé ce petit script (mon tout premier) qui a l'air de fonctionner : mass-ocr.txt Il est sans doute perfectible et je suis ouvert à toute suggestion.

    Ce que je peine à comprendre, c'est la fin de l'article de linux.com qui propose un petit script de nettoyage des espaces : le script nettoie un texte sélectionné. Mais l'auteur ne précise pas dans quel contexte doit être faite cette sélection. On peut la faire dans n'importe-quel soft ? De plus je ne vois rien dans le script qui mentionne la sélection comme étant le texte sur lequel travailler (mais je débute en shell…)

    Au final, je me dis que pour nettoyer le résultat de l'OCR, un script Python serait plus adapté en raison des outils de manipulation de chaînes que propose ce langage. D'où une dernière question : si je place ce script Python dans /usr/local/bin est-ce que mon, script mass-ocr pourra l'appeler comme s'il s'agissait de n'importe quelle commande ordinaire ? Inversement, si à l'avenir, je crée un script Python pour inclure l'ensemble de mes outils dans une interface graphique, est-ce que celui-ci pourra appeler le script-shell ?

    Ah ! Je suis sous Debian 8, XFCE.

    Merci de votre aide !

    Edit : je tiens mon interface graphique ! gedit peut aussi bien lancer des scripts shell que des scripts Python comme si c'était des greffons.
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  2. #2
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 115
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 115
    Par défaut
    Salut,
    Citation Envoyé par lejimi Voir le message
    Bonjour,

    j'ai un client qui voudrait que je lui fasse la saisie de tout un livre ancien. Pour gagner du temps, j'ai tout de suite pensé à l'OCR avec Tesseract.

    Gain de temps et OCR c'est incompatible !
    Si tu veux passer tes scans à l'OCR c'est pour transformer des fichiers images en fichiers textes, ce qui va t'obliger, une fois la conversion terminée, à tout relire car tu n'as alors pas droit à la moindre erreur (j'ai en exemple un bouquin de Bukoswki mal OCRisé [si je peux me permettre ce néologisme] qui est à certains endroits une vraie catastrophe : point d'exclamation transformé en "L", ou l'inverse [là j'ai mis le L en majuscule pour qu'on comprenne bien de quoi il s'agit : dans le livre il est en minuscule], les accents qui sautent, etc. [Women, n° 5900 au Livre de poche]).

    Et quand je vois le temps qu'a mis tesseract pour me scanner très mal limite illisible/inutilisable une demi-page A4 (environ, une minute), je me dis que tu n'es pas rendu...
    À gauche le fichier original .tiff à 300 dpi, à droite le résultat de tesseract...
    Nom : scan.jpg
Affichages : 491
Taille : 104,0 Ko

    S'il n'y a pas nécessité de traitement de texte après le scan, oublie l'OCR.

    Citation Envoyé par lejimi Voir le message
    Ce que je peine à comprendre, c'est la fin de l'article de linux.com qui propose un petit script de nettoyage des espaces : le script nettoie un texte sélectionné. Mais l'auteur ne précise pas dans quel contexte doit être faite cette sélection. On peut la faire dans n'importe-quel soft ? De plus je ne vois rien dans le script qui mentionne la sélection comme étant le texte sur lequel travailler (mais je débute en shell…)
    Pas des espaces ! De la numérotation des pages, nuance, tout simplement en faisant sauter la première ou la dernière ligne de chaque page. Ce qui veut dire, au passage, que s'il y a des pages avec texte et sans numérotation, ben c'est la dernière ou la première ligne du texte qui va sauter...
    Quant à la sélection, il n'y en a pas : l'outil prend les fichiers (qui correspondent aux pages) un par un et voilà.

    Citation Envoyé par lejimi Voir le message
    D'où une dernière question : si je place ce script Python dans /usr/local/bin est-ce que mon, script mass-ocr pourra l'appeler comme s'il s'agissait de n'importe quelle commande ordinaire ? Inversement, si à l'avenir, je crée un script Python pour inclure l'ensemble de mes outils dans une interface graphique, est-ce que celui-ci pourra appeler le script-shell ?
    Oui et oui, mais les scripts peuvent également être n'importe où et tu peux quand même les appeler : suffit de préciser le chemin complet dans le nom du script, genre /chemin/complet/vers/script.

  3. #3
    Membre expérimenté
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Billets dans le blog
    2
    Par défaut
    M'est avis que ça ira quand même plus vite que de taper "à la flic" juste avec les deux index. J'ai déjà OCRisé au boulot (sous Ouinedaube) et avec le rechercher-remplacer de LibreOffice, ça se décoquillait pas mal.

    Sinon, je persiste (mais je signe pas : demain je dois signer ma déclaration de revenus, nul ne m'en voudra d'économiser mes forces) : il y a bien à la fin de la page que j'indique un bout de code qui supprime les sauts de lignes d'une sélection (mais ça Gedit le fait de série) et se débrouille pour ne laisser qu'un espace à la fois.

    Du coup mon script mass-ocr, je dois pouvoir le transformer en plugin Gedit en remplaçant le complete.txt de la fin par $CURRENT_DOCUMENT_OU_JE_SAIS_PLUS_QUOI_DU_MÊME_GENRE ?
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  4. #4
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 115
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 115
    Par défaut
    Citation Envoyé par lejimi Voir le message
    M'est avis que ça ira quand même plus vite que de taper "à la flic" juste avec les deux index. J'ai déjà OCRisé au boulot (sous Ouinedaube) et avec le rechercher-remplacer de LibreOffice, ça se décoquillait pas mal.
    Je n'en suis pas convaincu : dans l'exemple que je donne, rien n'est exploitable, il faut donc perdre du temps à s'en rendre compte puis tout retaper.
    Donc, mathématiquement parlant, tout retaper directement prendrait moins de temps.
    Mais tu ne réponds pas à la question principale : OCR'iser ce livre une fois celui-si scanné, est-ce vraiment nécessaire ?
    Enfin, c'est toi qui voit, hein...

    EDIT : je réalise après coup que tu as peut-être saisi ta réponse après que ce fil ait été déplacé par un modo, en faisant sauter l'image que j'avais insérée, auquel cas tu ne l'as pas vue... Je l'ai retrouvée et réinsérée, je t'invite à y jeter un œil.

    Citation Envoyé par lejimi Voir le message
    il y a bien à la fin de la page que j'indique un bout de code qui supprime les sauts de lignes d'une sélection (mais ça Gedit le fait de série) et se débrouille pour ne laisser qu'un espace à la fois.
    Oui, désolé, je ne l'ai pas vu, hier...

  5. #5
    Membre expérimenté
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Billets dans le blog
    2
    Par défaut
    Je suis obligé d'OCRifier car au départ c'était la demande d'un client qui projette une ré-édition.

    Quel logiciel d'OCR utilises-tu ? Car avec Free OCR sous Windows et Tesseract sous Debian, j'obtiens des résultats bien meilleurs que les tiens et parfaitement exploitables.
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  6. #6
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    18 256
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 18 256
    Par défaut
    Avec des bons logiciels sous Windows, on arrive à un résultat acceptable, après correction.

    Sous Linux, je sais pas l'efficacité des produits dispo.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  7. #7
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 115
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 115
    Par défaut
    Citation Envoyé par lejimi Voir le message
    Je suis obligé d'OCRifier car au départ c'était la demande d'un client qui projette une ré-édition.
    Ouais, ben tu pourrais parfaitement mettre en page des fichiers .TIFF ; s'il n'est pas question de toucher au texte, personne n'y verrait que du feu. 'fin bon, j'dis ça j'dis rien, hein

    Citation Envoyé par lejimi Voir le message
    Quel logiciel d'OCR utilises-tu ? Car avec Free OCR sous Windows et Tesseract sous Debian, j'obtiens des résultats bien meilleurs que les tiens et parfaitement exploitables.
    Le tesseract comme toi.
    La seule différence c'est que je pars d'un fichier .jpg que j'ai converti avec The Gimp en .Tiff à 300 dpi. Effectivement, je suis extrêmement surpris d'un si mauvais résultat, et je n'ai pas d'explications.

    Et comme ça m'énerve , je viens de refaire un essai à partir d'un fichier natif en 300 dpi et là, c'est nettement mieux ! 95 % de réussite, c'est bien, surtout que le document ne s'y prêtait pas trop : un imprimé administratif (c'est tout ce que j'ai sous la main en 300 dpi) ! Mais ça ne t'empêchera pas d'être obligé de tout relire.
    Sale corvée, si le sujet n'est pas intéressant...

Discussions similaires

  1. Mon script envoy des mail en masse (spamming)
    Par k3vin dans le forum Langage
    Réponses: 1
    Dernier message: 23/05/2012, 16h11
  2. Réponses: 4
    Dernier message: 23/03/2009, 10h29
  3. Recherche d'un script PHP pour renommer des fichiers en masse
    Par pekka77 dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 3
    Dernier message: 19/11/2006, 23h43
  4. [Librairies] Ch script PHP pour reconnaissance de texte (OCR)
    Par yvan02 dans le forum Bibliothèques et frameworks
    Réponses: 2
    Dernier message: 14/05/2006, 16h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo