iTextSharp - document scanné

Version imprimable

16/02/2011, 12h56
prorace

iTextSharp - document scanné

Bonjour,

J'utilise actuellement iTextSharp pour extraire le texte d'un document PDF depuis une application C#.

Lorsque je veux le faire pour un document qui a été scanné, cela ne fonctionne pas.

Auriez-vous des solutions?

Merci
16/02/2011, 13h34
strinty

le type de format de l'image scanné est du même type que les non scannés ?
la qualité de scan est-elle suffisante pour que itextsharp arrive à lire/decrypter les caractères ?
16/02/2011, 13h47
prorace

Bonjour,

En voici un pour lequel ça ne fonctionne pas :

http://www.energie2007.fr/images/upl...f_oct_2007.pdf

Pour ce qui est du format de l'image, je n'en ai aucune idée.

Pour le moment, lorsque je prends un document word et que je le converti en pdf, j'arrive à récupérer le texte du pdf.
16/02/2011, 15h12
chamamo

je ne comprend pas, il est ou le rapport? iTextSharp récupère le texte depuis un document PDF, ce n'est pas un OCR (reconnaissance optique de caractères)

Je ne souhaite pas un OCR, je veux tout simplement extraire le texte d'un pdf.

Comme je l'ai dit plus haut, pour tester mon application j'ai généré un pdf depuis un document word, et cela a fonctionné.

Mais je me suis rendu compte que ça ne fonctionnait pas sur tous les PDF, dont :

http://www.energie2007.fr/images/upl...f_oct_2007.pdf

Hors, lorsque j'utilise PDFBox, je récupère sans problème le texte de ce pdf (après l'avoir enregistré sur l'ordinateur).

Je voudrais faire de même avec itextsharp.

Mon code pour PDFBox est :
Code:

1 2 3 4 5 6 PDDocument doc = PDDocument.load("C:\\...\\comparaison_tarifs_prix_edf_oct_2007[1].pdf"); PDFTextStripper stripper = new PDFTextStripper(); result = stripper.getText(doc);
Mon code pour itextsharp :
Code:

1 2 3 4 5 PDFParser lecteur = new PDFParser(); MessageBox.Show(lecteur.ExtractText("C:\\...\\test.pdf")); MessageBox.Show(lecteur.ExtractText(@"C:\...\comparaison_tarifs_prix_edf_oct_2007[1].pdf"));
J'ai obtenu ce code ici en téléchargeant les sources du projet.

Le fichier test.pdf est le résultat d'un fichier word converti en pdf.

Le fichier comparaison_tarifs_prix_edf_oct_2007[1].pdf est le pdf enregistré depuis le net à partir du lien ci-dessus.

Je ne comprends pas pourquoi cela fonctionne pour certains pdf et pas pour d'autres...