IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques et frameworks PHP Discussion :

[PDF] détection pdf searchable


Sujet :

Bibliothèques et frameworks PHP

  1. #1
    Candidat au Club
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    Décembre 2014
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : Décembre 2014
    Messages : 3
    Par défaut [PDF] détection pdf searchable
    Bonjour,

    Est-ce-qu'il y a un moyen simple pour savoir si un fichier pdf (provenant d'un scan) est uniquement
    de type image ou contient du texte (donc passé par un OCR) ?

    Evidemment par script, à la main ça se voit de suite.

    Merci.

  2. #2
    Expert confirmé
    Avatar de kiki29
    Homme Profil pro
    ex Observeur CGG / Analyste prog.
    Inscrit en
    Juin 2006
    Messages
    6 132
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : ex Observeur CGG / Analyste prog.

    Informations forums :
    Inscription : Juin 2006
    Messages : 6 132
    Par défaut
    Salut, de façon bestiale via Acrobat Reader par exemple, en sauvant le pdf en texte : si le fichier texte résultant est vide ( taille de qqs octets ), il n'y a que de l'image. Par contre en php ?

  3. #3
    Candidat au Club
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    Décembre 2014
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : Décembre 2014
    Messages : 3
    Par défaut solution pdfminer
    Merci pour la solution : essayer d'extraire le texte du pdf. Si ce n'est que de l'image
    ça n'extrait rien ou presque.

    Pour faire par script j'ai pris pdfminer, en python et qui marche très bien
    pour mes 278 fichiers.

    Discussion terminée, I hope this helps.

  4. #4
    Nouveau candidat au Club
    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Janvier 2015
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 77
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Janvier 2015
    Messages : 2
    Par défaut Détection pdf searchable
    Est-ce-qu'il y a un moyen rapide pour savoir si un fichier pdf (par exemple un livre) est uniquement
    de type image ou contient du texte (donc passé par un OCR) ?

    J'utilise Adobe Acrobat XI.

    Actuellement, après avoir ouvert le fichier, je fais une recherche pour voir si un mot est identifiable.
    Mais ce processus est fastidieux quand on a des centaines de livres à vérifier.

    Si le moyen qui vous vient, est la procédure décrite "pdfminer", alors s.v.p. expliquez,
    pour que le novice que je suis comprenne bien

    Merci de votre coopération.

  5. #5
    Candidat au Club
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    Décembre 2014
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Enseignant Chercheur

    Informations forums :
    Inscription : Décembre 2014
    Messages : 3
    Par défaut pdf searchable
    pdfminer est un utilitaire, sous linux et utilisable par script, pour extraire du texte d'un fichier pdf.

    Donc la technique est :

    1) convertir par pdfminer tous les fichiers pdf qu'on a

    2) vérifier la taille du résultat : si c'est du pdf image pdfminer extrait juste quelques
    dizaines d'octets, sinon c'est un vrai texte.

    J'espère que ça aide.

  6. #6
    Nouveau candidat au Club
    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Janvier 2015
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 77
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Janvier 2015
    Messages : 2
    Par défaut pdminer
    J'ai téléchargé pdfminor pour Windows 8.1.

    Je l'ai installé, mais incapable de m'en servir.
    Impossible de savoir comment faire simplement une recherche.

  7. #7
    Expert confirmé
    Avatar de kiki29
    Homme Profil pro
    ex Observeur CGG / Analyste prog.
    Inscrit en
    Juin 2006
    Messages
    6 132
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : ex Observeur CGG / Analyste prog.

    Informations forums :
    Inscription : Juin 2006
    Messages : 6 132
    Par défaut
    Salut, tu pourrais essayer ceci : Sauvegarder un fichier PDF au format Texte via VBA Excel, pour la vélocité cela reste à voir .....

Discussions similaires

  1. Détection de code barre sur fichier PDF
    Par Minimius dans le forum API standards et tierces
    Réponses: 3
    Dernier message: 15/02/2012, 14h15
  2. Détection de nombres de pages dans un documents Word,Pdf,Xsl ..
    Par moez.mhiri dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 2
    Dernier message: 13/01/2009, 09h23
  3. [c#] Génération PDF : Détection d'une marque non reconnue
    Par PtiBubu dans le forum Windows Forms
    Réponses: 1
    Dernier message: 27/06/2006, 15h19
  4. Affichage de documents PDF
    Par Dajon dans le forum C++Builder
    Réponses: 5
    Dernier message: 10/10/2002, 11h36
  5. [CR] exporter en PDF
    Par Nathy dans le forum SAP Crystal Reports
    Réponses: 3
    Dernier message: 16/05/2002, 09h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo