[PDF] détection pdf searchable

**jlmaltret** · 24/12/2014, 19h01

Bonjour,

Est-ce-qu'il y a un moyen simple pour savoir si un fichier pdf (provenant d'un scan) est uniquement
de type image ou contient du texte (donc passé par un OCR) ?

Evidemment par script, à la main ça se voit de suite.

Merci.

**kiki29** · 24/12/2014, 19h32

Salut, de façon bestiale via Acrobat Reader par exemple, en sauvant le pdf en texte : si le fichier texte résultant est vide ( taille de qqs octets ), il n'y a que de l'image. Par contre en php ?

**jlmaltret** · 25/12/2014, 12h12

Merci pour la solution : essayer d'extraire le texte du pdf. Si ce n'est que de l'image
ça n'extrait rien ou presque.

Pour faire par script j'ai pris pdfminer, en python et qui marche très bien
pour mes 278 fichiers.

Discussion terminée, I hope this helps.

**beaurocher** · 05/01/2015, 17h21

Est-ce-qu'il y a un moyen rapide pour savoir si un fichier pdf (par exemple un livre) est uniquement
de type image ou contient du texte (donc passé par un OCR) ?

J'utilise Adobe Acrobat XI.

Actuellement, après avoir ouvert le fichier, je fais une recherche pour voir si un mot est identifiable.
Mais ce processus est fastidieux quand on a des centaines de livres à vérifier.

Si le moyen qui vous vient, est la procédure décrite "pdfminer", alors s.v.p. expliquez,
pour que le novice que je suis comprenne bien

Merci de votre coopération.

**jlmaltret** · 05/01/2015, 17h48

pdfminer est un utilitaire, sous linux et utilisable par script, pour extraire du texte d'un fichier pdf.

Donc la technique est :

1) convertir par pdfminer tous les fichiers pdf qu'on a

2) vérifier la taille du résultat : si c'est du pdf image pdfminer extrait juste quelques
dizaines d'octets, sinon c'est un vrai texte.

J'espère que ça aide.

**beaurocher** · 05/01/2015, 20h53

J'ai téléchargé pdfminor pour Windows 8.1.

Je l'ai installé, mais incapable de m'en servir.
Impossible de savoir comment faire simplement une recherche.

**kiki29** · 06/01/2015, 04h55

Salut, tu pourrais essayer ceci : Sauvegarder un fichier PDF au format Texte via VBA Excel, pour la vélocité cela reste à voir .....

[PDF] détection pdf searchable

Bibliothèques et frameworks PHP

Discussions similaires

Partager

Partager