Bonjour,
J'utilise actuellement iTextSharp pour extraire le texte d'un document PDF depuis une application C#.
Lorsque je veux le faire pour un document qui a été scanné, cela ne fonctionne pas.
Auriez-vous des solutions?
Merci
Version imprimable
Bonjour,
J'utilise actuellement iTextSharp pour extraire le texte d'un document PDF depuis une application C#.
Lorsque je veux le faire pour un document qui a été scanné, cela ne fonctionne pas.
Auriez-vous des solutions?
Merci
le type de format de l'image scanné est du même type que les non scannés ?
la qualité de scan est-elle suffisante pour que itextsharp arrive à lire/decrypter les caractères ?
Bonjour,
En voici un pour lequel ça ne fonctionne pas :
http://www.energie2007.fr/images/upl...f_oct_2007.pdf
Pour ce qui est du format de l'image, je n'en ai aucune idée.
Pour le moment, lorsque je prends un document word et que je le converti en pdf, j'arrive à récupérer le texte du pdf.
je ne comprend pas, il est ou le rapport? iTextSharp récupère le texte depuis un document PDF, ce n'est pas un OCR (reconnaissance optique de caractères)
Je ne souhaite pas un OCR, je veux tout simplement extraire le texte d'un pdf.
Comme je l'ai dit plus haut, pour tester mon application j'ai généré un pdf depuis un document word, et cela a fonctionné.
Mais je me suis rendu compte que ça ne fonctionnait pas sur tous les PDF, dont :
http://www.energie2007.fr/images/upl...f_oct_2007.pdf
Hors, lorsque j'utilise PDFBox, je récupère sans problème le texte de ce pdf (après l'avoir enregistré sur l'ordinateur).
Je voudrais faire de même avec itextsharp.
Mon code pour PDFBox est :
Mon code pour itextsharp :Code:
1
2
3
4
5
6 PDDocument doc = PDDocument.load("C:\\...\\comparaison_tarifs_prix_edf_oct_2007[1].pdf"); PDFTextStripper stripper = new PDFTextStripper(); result = stripper.getText(doc);
J'ai obtenu ce code ici en téléchargeant les sources du projet.Code:
1
2
3
4
5 PDFParser lecteur = new PDFParser(); MessageBox.Show(lecteur.ExtractText("C:\\...\\test.pdf")); MessageBox.Show(lecteur.ExtractText(@"C:\...\comparaison_tarifs_prix_edf_oct_2007[1].pdf"));
Le fichier test.pdf est le résultat d'un fichier word converti en pdf.
Le fichier comparaison_tarifs_prix_edf_oct_2007[1].pdf est le pdf enregistré depuis le net à partir du lien ci-dessus.
Je ne comprends pas pourquoi cela fonctionne pour certains pdf et pas pour d'autres...