IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes GNU Discussion :

Script OCR en masse


Sujet :

Shell et commandes GNU

  1. #1
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut Script OCR en masse
    Bonjour,

    j'ai un client qui voudrait que je lui fasse la saisie de tout un livre ancien. Pour gagner du temps, j'ai tout de suite pensé à l'OCR avec Tesseract.

    En m'inspirant de cette page : https://www.linux.com/learn/how-scan...n-source-tools j'ai créé ce petit script (mon tout premier) qui a l'air de fonctionner : mass-ocr.txt Il est sans doute perfectible et je suis ouvert à toute suggestion.

    Ce que je peine à comprendre, c'est la fin de l'article de linux.com qui propose un petit script de nettoyage des espaces : le script nettoie un texte sélectionné. Mais l'auteur ne précise pas dans quel contexte doit être faite cette sélection. On peut la faire dans n'importe-quel soft ? De plus je ne vois rien dans le script qui mentionne la sélection comme étant le texte sur lequel travailler (mais je débute en shell…)

    Au final, je me dis que pour nettoyer le résultat de l'OCR, un script Python serait plus adapté en raison des outils de manipulation de chaînes que propose ce langage. D'où une dernière question : si je place ce script Python dans /usr/local/bin est-ce que mon, script mass-ocr pourra l'appeler comme s'il s'agissait de n'importe quelle commande ordinaire ? Inversement, si à l'avenir, je crée un script Python pour inclure l'ensemble de mes outils dans une interface graphique, est-ce que celui-ci pourra appeler le script-shell ?

    Ah ! Je suis sous Debian 8, XFCE.

    Merci de votre aide !

    Edit : je tiens mon interface graphique ! gedit peut aussi bien lancer des scripts shell que des scripts Python comme si c'était des greffons.
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  2. #2
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Salut,
    Citation Envoyé par lejimi Voir le message
    Bonjour,

    j'ai un client qui voudrait que je lui fasse la saisie de tout un livre ancien. Pour gagner du temps, j'ai tout de suite pensé à l'OCR avec Tesseract.

    Gain de temps et OCR c'est incompatible !
    Si tu veux passer tes scans à l'OCR c'est pour transformer des fichiers images en fichiers textes, ce qui va t'obliger, une fois la conversion terminée, à tout relire car tu n'as alors pas droit à la moindre erreur (j'ai en exemple un bouquin de Bukoswki mal OCRisé [si je peux me permettre ce néologisme] qui est à certains endroits une vraie catastrophe : point d'exclamation transformé en "L", ou l'inverse [là j'ai mis le L en majuscule pour qu'on comprenne bien de quoi il s'agit : dans le livre il est en minuscule], les accents qui sautent, etc. [Women, n° 5900 au Livre de poche]).

    Et quand je vois le temps qu'a mis tesseract pour me scanner très mal limite illisible/inutilisable une demi-page A4 (environ, une minute), je me dis que tu n'es pas rendu...
    À gauche le fichier original .tiff à 300 dpi, à droite le résultat de tesseract...
    Nom : scan.jpg
Affichages : 477
Taille : 104,0 Ko

    S'il n'y a pas nécessité de traitement de texte après le scan, oublie l'OCR.

    Citation Envoyé par lejimi Voir le message
    Ce que je peine à comprendre, c'est la fin de l'article de linux.com qui propose un petit script de nettoyage des espaces : le script nettoie un texte sélectionné. Mais l'auteur ne précise pas dans quel contexte doit être faite cette sélection. On peut la faire dans n'importe-quel soft ? De plus je ne vois rien dans le script qui mentionne la sélection comme étant le texte sur lequel travailler (mais je débute en shell…)
    Pas des espaces ! De la numérotation des pages, nuance, tout simplement en faisant sauter la première ou la dernière ligne de chaque page. Ce qui veut dire, au passage, que s'il y a des pages avec texte et sans numérotation, ben c'est la dernière ou la première ligne du texte qui va sauter...
    Quant à la sélection, il n'y en a pas : l'outil prend les fichiers (qui correspondent aux pages) un par un et voilà.

    Citation Envoyé par lejimi Voir le message
    D'où une dernière question : si je place ce script Python dans /usr/local/bin est-ce que mon, script mass-ocr pourra l'appeler comme s'il s'agissait de n'importe quelle commande ordinaire ? Inversement, si à l'avenir, je crée un script Python pour inclure l'ensemble de mes outils dans une interface graphique, est-ce que celui-ci pourra appeler le script-shell ?
    Oui et oui, mais les scripts peuvent également être n'importe où et tu peux quand même les appeler : suffit de préciser le chemin complet dans le nom du script, genre /chemin/complet/vers/script.
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  3. #3
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    M'est avis que ça ira quand même plus vite que de taper "à la flic" juste avec les deux index. J'ai déjà OCRisé au boulot (sous Ouinedaube) et avec le rechercher-remplacer de LibreOffice, ça se décoquillait pas mal.

    Sinon, je persiste (mais je signe pas : demain je dois signer ma déclaration de revenus, nul ne m'en voudra d'économiser mes forces) : il y a bien à la fin de la page que j'indique un bout de code qui supprime les sauts de lignes d'une sélection (mais ça Gedit le fait de série) et se débrouille pour ne laisser qu'un espace à la fois.

    Du coup mon script mass-ocr, je dois pouvoir le transformer en plugin Gedit en remplaçant le complete.txt de la fin par $CURRENT_DOCUMENT_OU_JE_SAIS_PLUS_QUOI_DU_MÊME_GENRE ?
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  4. #4
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Citation Envoyé par lejimi Voir le message
    M'est avis que ça ira quand même plus vite que de taper "à la flic" juste avec les deux index. J'ai déjà OCRisé au boulot (sous Ouinedaube) et avec le rechercher-remplacer de LibreOffice, ça se décoquillait pas mal.
    Je n'en suis pas convaincu : dans l'exemple que je donne, rien n'est exploitable, il faut donc perdre du temps à s'en rendre compte puis tout retaper.
    Donc, mathématiquement parlant, tout retaper directement prendrait moins de temps.
    Mais tu ne réponds pas à la question principale : OCR'iser ce livre une fois celui-si scanné, est-ce vraiment nécessaire ?
    Enfin, c'est toi qui voit, hein...

    EDIT : je réalise après coup que tu as peut-être saisi ta réponse après que ce fil ait été déplacé par un modo, en faisant sauter l'image que j'avais insérée, auquel cas tu ne l'as pas vue... Je l'ai retrouvée et réinsérée, je t'invite à y jeter un œil.

    Citation Envoyé par lejimi Voir le message
    il y a bien à la fin de la page que j'indique un bout de code qui supprime les sauts de lignes d'une sélection (mais ça Gedit le fait de série) et se débrouille pour ne laisser qu'un espace à la fois.
    Oui, désolé, je ne l'ai pas vu, hier...
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  5. #5
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    Je suis obligé d'OCRifier car au départ c'était la demande d'un client qui projette une ré-édition.

    Quel logiciel d'OCR utilises-tu ? Car avec Free OCR sous Windows et Tesseract sous Debian, j'obtiens des résultats bien meilleurs que les tiens et parfaitement exploitables.
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  6. #6
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    17 453
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 17 453
    Points : 43 244
    Points
    43 244
    Par défaut
    Avec des bons logiciels sous Windows, on arrive à un résultat acceptable, après correction.

    Sous Linux, je sais pas l'efficacité des produits dispo.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  7. #7
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Citation Envoyé par lejimi Voir le message
    Je suis obligé d'OCRifier car au départ c'était la demande d'un client qui projette une ré-édition.
    Ouais, ben tu pourrais parfaitement mettre en page des fichiers .TIFF ; s'il n'est pas question de toucher au texte, personne n'y verrait que du feu. 'fin bon, j'dis ça j'dis rien, hein

    Citation Envoyé par lejimi Voir le message
    Quel logiciel d'OCR utilises-tu ? Car avec Free OCR sous Windows et Tesseract sous Debian, j'obtiens des résultats bien meilleurs que les tiens et parfaitement exploitables.
    Le tesseract comme toi.
    La seule différence c'est que je pars d'un fichier .jpg que j'ai converti avec The Gimp en .Tiff à 300 dpi. Effectivement, je suis extrêmement surpris d'un si mauvais résultat, et je n'ai pas d'explications.

    Et comme ça m'énerve , je viens de refaire un essai à partir d'un fichier natif en 300 dpi et là, c'est nettement mieux ! 95 % de réussite, c'est bien, surtout que le document ne s'y prêtait pas trop : un imprimé administratif (c'est tout ce que j'ai sous la main en 300 dpi) ! Mais ça ne t'empêchera pas d'être obligé de tout relire.
    Sale corvée, si le sujet n'est pas intéressant...
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  8. #8
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    Tout relire, ça fait partie de la prestation, même si tu saisis à la main : les fautes de frappes sont inévitables.

    Et le client étant éditeur il veut bien un "vrai" fichier texte pour le confier à son propre service de mise en page.
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  9. #9
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Citation Envoyé par lejimi Voir le message
    Tout relire, ça fait partie de la prestation, même si tu saisis à la main : les fautes de frappes sont inévitables.
    Hé bien, je peux te dire que pourtant on trouve de plus en plus d'horreurs dans les éditions récentes, à croire que le métier de correcteur a disparu

    Citation Envoyé par lejimi Voir le message
    Et le client étant éditeur il veut bien un "vrai" fichier texte pour le confier à son propre service de mise en page.
    Pas d'bol !
    Allez, bon courage...
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  10. #10
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    Oui, je suppose que les éditeurs font des économies de bouts de chandelles là-dessus. Même chez Folio (Gallimard !) on trouve des horreurs. Je crois aussi que certains éditeurs font faire leur saisie en Inde, là encore parce que c'est moins cher. Je viens de terminer la lecture de l'autobiographie de Monfreid (au Seuil…) : c'est une catastrophe : au moins une énorme co(q)uille par page…

    Et sinon ? Pour ce qui est de mes questions ?
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  11. #11
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Citation Envoyé par lejimi Voir le message
    Oui, je suppose que les éditeurs font des économies de bouts de chandelles là-dessus. Même chez Folio (Gallimard !) on trouve des horreurs. Je crois aussi que certains éditeurs font faire leur saisie en Inde, là encore parce que c'est moins cher. Je viens de terminer la lecture de l'autobiographie de Monfreid (au Seuil…) : c'est une catastrophe : au moins une énorme co(q)uille par page…
    OMG !
    Enfin bon, merci pour ton point de vue, je me sens moins seul

    Citation Envoyé par lejimi Voir le message
    Et sinon ? Pour ce qui est de mes questions ?
    Il n'en reste plus qu'une, il me semble :
    Citation Envoyé par lejimi Voir le message
    Du coup mon script mass-ocr, je dois pouvoir le transformer en plugin Gedit en remplaçant le complete.txt de la fin par $CURRENT_DOCUMENT_OU_JE_SAIS_PLUS_QUOI_DU_MÊME_GENRE ?
    Alors pour le plugin je ne sais pas, je n'utilise pas Gedit (et je ne l'ai pas dans ma machine).
    Et pour la suite, je ne comprends pas la question, dans la mesure où c'est toi, enfin, l'utilisateur, qui fait générer complete.txt, ou CURRENT_DOCUMENT.txt, ou toto.txt ou abcd.txt, ou MonBouquin.txt, comme tu le sens.
    Je ne capte pas bien la question (peut-être à cause de cette histoire de plugin, désolé)...
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  12. #12
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    Non, c'est peut-être moi qui ne suis pas clair. En gros, mon script en version "standalone" produit un complete.txt qui regroupe les résultats de l'OCR. Mais j'aimerais regrouper ces résultats sans le document déjà ouvert dans Gedit, celui que les autres extensions désignent par la fameuse variable. Donc je suppose que c'est elle que je dois utiliser.

    J'ai d'autres question qui sont restées sans réponse concernant le script de nettoyage des espaces et des sauts de lignes qui est en lien dans mon premier message : où dois-je sélectionné le texte pour que le script s'applique à icelui ? Et qu'est-ce qui fait dans l'implémentation du script, qu'il ne traitera que la sélection ? Je n'y vois nulle part une ligne qui ferait l'acquisition de données…
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  13. #13
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Yop !
    Citation Envoyé par lejimi Voir le message
    J'ai d'autres question qui sont restées sans réponse concernant le script de nettoyage des espaces et des sauts de lignes qui est en lien dans mon premier message : dois-je sélectionné le texte pour que le script s'applique à icelui ? Et qu'est-ce qui fait dans l'implémentation du script, qu'il ne traitera que la sélection ? Je n'y vois nulle part une ligne qui ferait l'acquisition de données…
    dois-je sélectionner le texte pour que le script s'applique à icelui ?
    Dans Gedit il dit le monsieur :
    I defined the following tool to work on the current selection:
    [snip]
    With this, you can select some lines and press your defined shortcut. The whole selection becomes one line.
    Pour l'autre question, j'en sais rien...
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  14. #14
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    Ah oui ! J'avais pas vu ! Faut reconnaître qu'il le dit pas fort…
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  15. #15
    Membre averti Avatar de cervo
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Décembre 2012
    Messages
    220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Côte d'Ivoire

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2012
    Messages : 220
    Points : 388
    Points
    388
    Par défaut

    Bon ma solution n'est pas forcement pratique mais je pense que le but final c'est d'arriver a tes fins. Il y a un outil gratuit ChronoScan qui peut te faire de l'OCR de très bonne qualité. Il est utilisable en ligne de commande. En un rien de temps tu peux gérer impec !
    Toute chose dépend de la valeur qu'on lui attribue !

  16. #16
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Citation Envoyé par cervo Voir le message
    Il y a un outil gratuit ChronoScan qui peut te faire de l'OCR de très bonne qualité. Il est utilisable en ligne de commande. En un rien de temps tu peux gérer impec !
    C'est cela, oui...
    On est quand même dans le forum Linux, là, et sur la page Download du logiciel que tu préconises on peut lire
    Supported Operating Systems

    Windows 10 (x86 and x64)
    Windows 8.1 (x86 and x64)
    Windows 8 (x86 and x64)
    Windows 7 (x86 and x64)
    Windows Vista (x86 and x64)
    Windows XP Professional SP3 (x86 and x64)
    Windows XP Media Center Edition SP3
    Windows XP Home SP3
    Windows Server 2008
    Windows Server 2003 SP2
    et avec un plus un Nag Screen pour la version personnelle et gratuite...
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  17. #17
    Membre averti Avatar de cervo
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Décembre 2012
    Messages
    220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Côte d'Ivoire

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2012
    Messages : 220
    Points : 388
    Points
    388
    Par défaut

    j'avais oublié qu'on etait en mode linux !... Souvent faut coupler les 2 pour en tirer profit ... meme si je suis conscient que " Linux is the BEST "
    Toute chose dépend de la valeur qu'on lui attribue !

  18. #18
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    Je suis content que Cervo ai fait remonté ce sujet : cela me donne l'occasion d'un petit bilan.

    Mon client a finalement confirmé sa commande et m'a fait parvenir les pages du livre sans reliure, ce qui permet de les placer bien à plat sous le scanner (avantage). Le papier est bien jauni, inconvénient, mais il m'a suffit d'en tenir compte en poussant fortement les paramètres --contrast et --brightness de la commande scanimage. J'ai également opté pour une résolution de 600ppp

    Moralité, j'ai pu OCRiser environ 27 pages en deux heures, en n'ayant que très peu de corrections à faire. Même la préface composée en italique n'a pas posé de problèmes. Traiter les 166 pages du livre ne devrait donc prendre que quelques jours : au temps pour l'OCR qui n'est pas un gain de temps !

    Petit mystère, mon scanner est "baladeur" : la commande scanimage -L me renvoie des valeurs différentes alors que l'appareil est toujours branché sur le même port USB. Du coup --device 'genesys:libusb:001:003' doit parfois être transformé en --device 'genesys:libusb:003:007' ou autre. Finalement j'ai supprimé cette option : s'il n'y a qu'un scanner, scanimage le retrouve de toute façon ; cela prend juste un peu de temps.
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

  19. #19
    Expert éminent sénior
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    10 732
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 10 732
    Points : 15 137
    Points
    15 137
    Par défaut
    Merci pour ton retour,

    et bien joué !

    Citation Envoyé par lejimi Voir le message
    Mon client a finalement confirmé sa commande et m'a fait parvenir les pages du livre sans reliure, ce qui permet de les placer bien à plat sous le scanner (avantage). Le papier est bien jauni, inconvénient, mais il m'a suffit d'en tenir compte en poussant fortement les paramètres --contrast et --brightness de la commande scanimage. J'ai également opté pour une résolution de 600ppp.

    T'as bien de la chance : il se trouve que j'ai fait un test, hier ou avant-hier, directement inspiré de ce que tu as fourni ici, et je dois avoir une version moisie de ScanImage, ce "machin" (pas d'autre mot, et restons poli) ne reconnaît pas l'option --contrast, gère comme il le sent l'option --brigthness +20 (sortie console = scanimage: rounded value of brightness from 20 to 3) et ignore purement et simplement --resolution 300 : le fichier résultant se retrouve à 72 dpi dans The Gimp, autant dire que tout le reste derrière n'amène qu'à une OCRisation à vomir .

    Bah, au moins je sais que si j'avais un taf lourd là-dessus faudrait que je commence par mettre à jour le bazar.
    Et en attendant, je continue avec Sane.
    Il a à vivre sa vie comme ça et il est mûr sur ce mur se creusant la tête : peutêtre qu'il peut être sûr, etc.
    Oui, je milite pour l'orthographe et le respect du trait d'union à l'impératif.
    Après avoir posté, relisez-vous ! Et en cas d'erreur ou d'oubli, il existe un bouton « Modifier », à utiliser sans modération
    On a des lois pour protéger les remboursements aux faiseurs d’argent. On n’en a pas pour empêcher un être humain de mourir de misère.
    Mes 2 cts,
    --
    jp

  20. #20
    Membre confirmé
    Avatar de lejimi
    Homme Profil pro
    Écrivain public
    Inscrit en
    Mai 2004
    Messages
    182
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Cher (Centre)

    Informations professionnelles :
    Activité : Écrivain public
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mai 2004
    Messages : 182
    Points : 483
    Points
    483
    Billets dans le blog
    2
    Par défaut
    Honnêtement, Jipété, je ne connais pas assez le sujet pour savoir ce qui ne va pas chez toi. Peut-être ta version de scanimage est-elle plus vieille ou plus récente que la mienne ?

    J'avais déjà fait ce type de travail sous Windows et j'avais eu de bons résultats avec FreeOCR (solution graphique, outils de nettoyage intégrés…) Pourtant, je travaillais sur des formats poches, avec une belle ombre entre les deux pages, malgré un aplatissement « vigoureux ».
    Gloire à qui n'ayant pas d'idéal sacro-saint
    Se borne à ne pas trop emmerder ses voisins.


    Mon tutoriel pour débuter avec Inkscape
    D'autres tutoriels intéressants dans la rubrique Open Source
    Et n'oubliez pas la FAQ Open Source !

Discussions similaires

  1. Mon script envoy des mail en masse (spamming)
    Par k3vin dans le forum Langage
    Réponses: 1
    Dernier message: 23/05/2012, 16h11
  2. Réponses: 4
    Dernier message: 23/03/2009, 10h29
  3. Recherche d'un script PHP pour renommer des fichiers en masse
    Par pekka77 dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 3
    Dernier message: 19/11/2006, 23h43
  4. [Librairies] Ch script PHP pour reconnaissance de texte (OCR)
    Par yvan02 dans le forum Bibliothèques et frameworks
    Réponses: 2
    Dernier message: 14/05/2006, 16h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo