iTextSharp - document scanné

**prorace** · 16/02/2011, 12h56

Bonjour,

J'utilise actuellement iTextSharp pour extraire le texte d'un document PDF depuis une application C#.

Lorsque je veux le faire pour un document qui a été scanné, cela ne fonctionne pas.

Auriez-vous des solutions?

Merci

**strinty** · 16/02/2011, 13h34

le type de format de l'image scanné est du même type que les non scannés ?
la qualité de scan est-elle suffisante pour que itextsharp arrive à lire/decrypter les caractères ?

**prorace** · 16/02/2011, 13h47

Bonjour,

En voici un pour lequel ça ne fonctionne pas :

http://www.energie2007.fr/images/upl...f_oct_2007.pdf

Pour ce qui est du format de l'image, je n'en ai aucune idée.

Pour le moment, lorsque je prends un document word et que je le converti en pdf, j'arrive à récupérer le texte du pdf.

**chamamo** · 16/02/2011, 15h12

je ne comprend pas, il est ou le rapport? iTextSharp récupère le texte depuis un document PDF, ce n'est pas un OCR (reconnaissance optique de caractères)

**prorace** · 16/02/2011, 15h32

Je ne souhaite pas un OCR, je veux tout simplement extraire le texte d'un pdf.

Comme je l'ai dit plus haut, pour tester mon application j'ai généré un pdf depuis un document word, et cela a fonctionné.

Mais je me suis rendu compte que ça ne fonctionnait pas sur tous les PDF, dont :

http://www.energie2007.fr/images/upl...f_oct_2007.pdf

Hors, lorsque j'utilise PDFBox, je récupère sans problème le texte de ce pdf (après l'avoir enregistré sur l'ordinateur).

Je voudrais faire de même avec itextsharp.

Mon code pour PDFBox est :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
PDDocument doc = PDDocument.load("C:\\...\\comparaison_tarifs_prix_edf_oct_2007[1].pdf");
 
 
 
            PDFTextStripper stripper = new PDFTextStripper();
            result = stripper.getText(doc);

Mon code pour itextsharp :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
PDFParser lecteur = new PDFParser();
 
 
            MessageBox.Show(lecteur.ExtractText("C:\\...\\test.pdf"));
            MessageBox.Show(lecteur.ExtractText(@"C:\...\comparaison_tarifs_prix_edf_oct_2007[1].pdf"));

J'ai obtenu ce code ici en téléchargeant les sources du projet.

Le fichier test.pdf est le résultat d'un fichier word converti en pdf.

Le fichier comparaison_tarifs_prix_edf_oct_2007[1].pdf est le pdf enregistré depuis le net à partir du lien ci-dessus.

Je ne comprends pas pourquoi cela fonctionne pour certains pdf et pas pour d'autres...

iTextSharp - document scanné

C#

Vue hybride

Discussions similaires

Partager

Partager