IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C# Discussion :

iTextSharp - document scanné


Sujet :

C#

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Février 2011
    Messages
    23
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Février 2011
    Messages : 23
    Par défaut iTextSharp - document scanné
    Bonjour,

    J'utilise actuellement iTextSharp pour extraire le texte d'un document PDF depuis une application C#.

    Lorsque je veux le faire pour un document qui a été scanné, cela ne fonctionne pas.

    Auriez-vous des solutions?

    Merci

  2. #2
    Membre habitué
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    11
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 11
    Par défaut
    le type de format de l'image scanné est du même type que les non scannés ?
    la qualité de scan est-elle suffisante pour que itextsharp arrive à lire/decrypter les caractères ?

  3. #3
    Membre averti
    Profil pro
    Inscrit en
    Février 2011
    Messages
    23
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Février 2011
    Messages : 23
    Par défaut
    Bonjour,

    En voici un pour lequel ça ne fonctionne pas :

    http://www.energie2007.fr/images/upl...f_oct_2007.pdf

    Pour ce qui est du format de l'image, je n'en ai aucune idée.

    Pour le moment, lorsque je prends un document word et que je le converti en pdf, j'arrive à récupérer le texte du pdf.

  4. #4
    Membre émérite Avatar de chamamo
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    588
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 588
    Par défaut
    je ne comprend pas, il est ou le rapport? iTextSharp récupère le texte depuis un document PDF, ce n'est pas un OCR (reconnaissance optique de caractères)

  5. #5
    Membre averti
    Profil pro
    Inscrit en
    Février 2011
    Messages
    23
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Février 2011
    Messages : 23
    Par défaut
    Je ne souhaite pas un OCR, je veux tout simplement extraire le texte d'un pdf.

    Comme je l'ai dit plus haut, pour tester mon application j'ai généré un pdf depuis un document word, et cela a fonctionné.

    Mais je me suis rendu compte que ça ne fonctionnait pas sur tous les PDF, dont :

    http://www.energie2007.fr/images/upl...f_oct_2007.pdf

    Hors, lorsque j'utilise PDFBox, je récupère sans problème le texte de ce pdf (après l'avoir enregistré sur l'ordinateur).

    Je voudrais faire de même avec itextsharp.

    Mon code pour PDFBox est :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    PDDocument doc = PDDocument.load("C:\\...\\comparaison_tarifs_prix_edf_oct_2007[1].pdf");
     
     
     
                PDFTextStripper stripper = new PDFTextStripper();
                result = stripper.getText(doc);
    Mon code pour itextsharp :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    PDFParser lecteur = new PDFParser();
     
     
                MessageBox.Show(lecteur.ExtractText("C:\\...\\test.pdf"));
                MessageBox.Show(lecteur.ExtractText(@"C:\...\comparaison_tarifs_prix_edf_oct_2007[1].pdf"));
    J'ai obtenu ce code ici en téléchargeant les sources du projet.

    Le fichier test.pdf est le résultat d'un fichier word converti en pdf.

    Le fichier comparaison_tarifs_prix_edf_oct_2007[1].pdf est le pdf enregistré depuis le net à partir du lien ci-dessus.

    Je ne comprends pas pourquoi cela fonctionne pour certains pdf et pas pour d'autres...

Discussions similaires

  1. ecrire sur document scanné
    Par valedavid dans le forum FAQs Windows
    Réponses: 6
    Dernier message: 01/10/2011, 09h20
  2. Segmentation / auto-reconnaissance de forme sur document scanné
    Par kpoman dans le forum Traitement d'images
    Réponses: 1
    Dernier message: 31/08/2010, 13h32
  3. Réponses: 5
    Dernier message: 12/05/2010, 16h49
  4. Réponses: 1
    Dernier message: 26/08/2009, 11h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo