Bonjour,
Est-ce-qu'il y a un moyen simple pour savoir si un fichier pdf (provenant d'un scan) est uniquement
de type image ou contient du texte (donc passé par un OCR) ?
Evidemment par script, à la main ça se voit de suite.
Merci.
Bonjour,
Est-ce-qu'il y a un moyen simple pour savoir si un fichier pdf (provenant d'un scan) est uniquement
de type image ou contient du texte (donc passé par un OCR) ?
Evidemment par script, à la main ça se voit de suite.
Merci.
Salut, de façon bestiale via Acrobat Reader par exemple, en sauvant le pdf en texte : si le fichier texte résultant est vide ( taille de qqs octets ), il n'y a que de l'image. Par contre en php ?
Merci pour la solution : essayer d'extraire le texte du pdf. Si ce n'est que de l'image
ça n'extrait rien ou presque.
Pour faire par script j'ai pris pdfminer, en python et qui marche très bien
pour mes 278 fichiers.
Discussion terminée, I hope this helps.
Est-ce-qu'il y a un moyen rapide pour savoir si un fichier pdf (par exemple un livre) est uniquement
de type image ou contient du texte (donc passé par un OCR) ?
J'utilise Adobe Acrobat XI.
Actuellement, après avoir ouvert le fichier, je fais une recherche pour voir si un mot est identifiable.
Mais ce processus est fastidieux quand on a des centaines de livres à vérifier.
Si le moyen qui vous vient, est la procédure décrite "pdfminer", alors s.v.p. expliquez,
pour que le novice que je suis comprenne bien
Merci de votre coopération.
pdfminer est un utilitaire, sous linux et utilisable par script, pour extraire du texte d'un fichier pdf.
Donc la technique est :
1) convertir par pdfminer tous les fichiers pdf qu'on a
2) vérifier la taille du résultat : si c'est du pdf image pdfminer extrait juste quelques
dizaines d'octets, sinon c'est un vrai texte.
J'espère que ça aide.
J'ai téléchargé pdfminor pour Windows 8.1.
Je l'ai installé, mais incapable de m'en servir.
Impossible de savoir comment faire simplement une recherche.
Salut, tu pourrais essayer ceci : Sauvegarder un fichier PDF au format Texte via VBA Excel, pour la vélocité cela reste à voir .....
Partager