IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C# Discussion :

Lire un pdf comme une image


Sujet :

C#

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre habitué
    Inscrit en
    Décembre 2008
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 10
    Par défaut Lire un pdf comme une image
    Bonjour,

    C'est une question qui revient assez frequement : Est-il possible de lire un pdf à la manière d'un BMP ?

    Mon idée est de recevoir un pdf (en vectoriel ou non) et de pouvoir en extraire une partie (un tableau) pour ensuite la faire évaluer par un OCR. J'ai déjà essayé "MagickNet" qui a l'avantage d'être gratuit, mais j'ai constaté une perte de qualité assez importante lors de la conversion en image, ce qui n'est pas génial pour la passer dans l'OCR. J'ai aussi cru en "pdfimages.exe" l'application de "Xpdf" qui extrait les images du pdf. Cela n'a fait qu'un temps, car ce n'est pas du tout précis.

    J'ai aussi vu "Solid Framework SDK" qui m'avait l'air pas mal, mais le problème c'est que la license est payante.


    Est-ce que quelqu'un aurait déjà utilisé avec succès une librairie gratuite qui résouderait mon problème ?

    Merci

  2. #2
    Membre habitué
    Inscrit en
    Décembre 2008
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 10
    Par défaut
    J'ai trouvé un élement de ma réponse avec Ghostscript. Je fais des tests pour voir ce que ca peut donner. Apparemment on peut controler la qualité de la sortie

  3. #3
    Membre chevronné
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2008
    Messages
    337
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Septembre 2008
    Messages : 337
    Par défaut
    Ton OCR ne sait pas lire un PDF ?
    Il y en a pourtant qui le font "ABBYY FineReader" le fait.

    Bonne chance pour la suite !

  4. #4
    Membre habitué
    Inscrit en
    Décembre 2008
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 10
    Par défaut
    Tout d'abord, merci de ta réponse.

    Ensuite, mon but est de pouvoir appliquer l'OCR sur un tableau que je dois extraire au préalable qui est situé dans un coin du PDF. Pour cela, j'ai besoin d'utiliser des fonctions afin d'extraire ce tableau et de le "nettoyer" pour qu'il ne reste plus que le texte pertinent, et donc obtenir un résultat correct. C'est pourquoi il faut que je puisse traiter le PDF en tant qu'image pour manipuler les pixels.

    Sinon oui, j'utilise gOCR qui lit les PDF. Mais le résultat est inexploitable.

    J'ai implémenté GhostScript pour essayer, mais pour l'instant j'ai des résultats de mauvaise qualitée, une lecture de la doc s'impose

  5. #5
    Expert confirmé Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Par défaut
    Le tableau est-il en texte (pas une image incluse dans le pdf)?
    Si c'est le cas, pourquoi ne pas simplement récupérer les Glyph (caractères) et leur positions afin de reconstituer le contenu du tableau ?

  6. #6
    Membre habitué
    Inscrit en
    Décembre 2008
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 10
    Par défaut
    Si c'est une image. Mais j'ai déjà comtpé sur ca en essayant d'extraire les images, mais c'es vraiment pas fiable. Sinon j'ai bien trouvé mon bonheur avec GhostScript.

    Petit tutorial

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [FPDF] Générer une page PDF avec une image
    Par dudu134 dans le forum Bibliothèques et frameworks
    Réponses: 9
    Dernier message: 27/09/2007, 11h23
  2. Lire du texte dans une image
    Par J_Lennon dans le forum Langage
    Réponses: 3
    Dernier message: 12/07/2007, 15h28
  3. [c#] lire les propriété d'une image
    Par wayak3 dans le forum Windows Forms
    Réponses: 5
    Dernier message: 12/10/2006, 13h07
  4. Lire bit à bit une image JPEG
    Par moumoute15 dans le forum Images
    Réponses: 1
    Dernier message: 10/06/2006, 15h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo