IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Extraire le texte d'un fichier PDF de norme 1.4


Sujet :

Langage PHP

  1. #1
    Membre éclairé
    Avatar de clavier12AZQSWX
    Homme Profil pro
    Technicien maintenance
    Inscrit en
    Avril 2009
    Messages
    1 391
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Somme (Picardie)

    Informations professionnelles :
    Activité : Technicien maintenance

    Informations forums :
    Inscription : Avril 2009
    Messages : 1 391
    Points : 863
    Points
    863
    Par défaut Extraire le texte d'un fichier PDF de norme 1.4
    bonjour,


    Avant (dans mes vieilles années 2010) on pouvait extraire le texte d'un PDF ou le convertir afin de traiter en lot les données inclues dans les fichiers PDF.
    Je voulais effectuer le même traitement maintenant mais ça semble ne plus marcher.
    J'ai un fichier PDF ouvert dans un éditeur basique (notepad++) et je ne vois pas le texte du pdf.
    La norme PDF est 1.4 et le générateur du PDF est PDFsharp 1.32.2608-g (information inscrite dans les propriétés du fichier données par adobe reader). Même le texte PDFsharp n'est pas trouvable dans notepad ...

    est-ce que le format 1.4 est sécurisé ou bien il y a un autre problème ?
    Avant d'entreprendre la tache avec une librairie PHP, je préfère savoir à l'avance si c'est impossible ou pas...
    Dans le pdf ouvert dans notepad, je ne vois aucun texte du pdf mais pourtant je vois les données structurelles du PDF :

    %PDF-1.4
    %ÓôÌá
    1 0 obj
    <<
    /CreationDate(yþ6E뺂të+?ð‹9ÈÝÎð¸¿q)
    /Creator(m€B±èÀ1ú-!ûŽˆ?ÓÕÑ°¨§!åV®È£h‹ÚÅ&ÿfrŽ)
    /Producer(m€B±èÀ1ú-!ûŽˆ?ÓÕÑ°¨§!åV®È£h‹ÚÅ&ÿfrŽ)
    >>
    endobj
    2 0 obj
    <<
    /Type/Catalog
    /Pages 3 0 R
    >>
    endobj
    3 0 obj
    <<
    /Type/Pages
    /Count 1
    /Kids[4 0 R]
    >>
    endobj
    4 0 obj
    <<
    /Type/Page
    /MediaBox[0 0 595 842]
    /Parent 3 0 R
    /Contents 5 0 R
    /Resources
    <<
    /ProcSet [/PDF/Text/ImageB/ImageC/ImageI]
    /XObject
    <<
    /I0 6 0 R
    /I1 7 0 R
    /I2 17 0 R
    /I3 18 0 R
    /I4 19 0 R
    /I5 20 0 R
    >>
    /ExtGState
    <<
    /GS0 8 0 R
    >>
    /Font
    <<
    /F0 12 0 R
    /F1 16 0 R
    >>
    >>
    /Group
    <<
    /CS/DeviceRGB
    /S/Transparency
    /I false
    /K false
    >>
    >>
    endobj
    5 0 obj
    <<
    /Length 2208
    /Filter/FlateDecode
    >>
    stream...etc
    qu'en pensez-vous ? ai-je une chance d'avoir un meilleur résultat avec une lib PHP que avec notepad++ ?

  2. #2
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    17 451
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 17 451
    Points : 43 097
    Points
    43 097
    Par défaut
    Je ne connais pas spécifiquement l'encodage interne des fichiers pdf, mais il se peut que le texte soit compressé et donc non visible depuis un éditeur. il faudrait voir avec un outil PHP de traitement PDF.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  3. #3
    Membre éclairé
    Avatar de clavier12AZQSWX
    Homme Profil pro
    Technicien maintenance
    Inscrit en
    Avril 2009
    Messages
    1 391
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Somme (Picardie)

    Informations professionnelles :
    Activité : Technicien maintenance

    Informations forums :
    Inscription : Avril 2009
    Messages : 1 391
    Points : 863
    Points
    863
    Par défaut
    on trouve une panacée d'outils en ligne gratuit pour convertir un pdf en txt , mais je peux pas essayer car je me doute bien que les serveurs gardent le PDF chez eux pour l'exploiter.... Les documents pdf dont j'ai la responsabilité n'ont pas teneurs à être mis en ligne à cause du caractère personnel.
    J'ai un lamp XAMP installé en local, au cas où vous connaisseriez un projet de test rapide à installer pour savoir si le texte du PDF est crypté ou pas. En tout cas, à l'écran il est sélectionnable/copiable dans Adobe Reader.
    C'est étrange, car je me souviens bien qu'à l'époque (entre 2000 et 2010), on pouvait lire le contenu textuel d'un pdf à partir d'un simple éditeur comme notepad/vi/vim ....

  4. #4
    Membre émérite
    Avatar de cavo789
    Homme Profil pro
    Développeur Web
    Inscrit en
    Mai 2004
    Messages
    1 756
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Mai 2004
    Messages : 1 756
    Points : 2 990
    Points
    2 990
    Par défaut
    Bonjour

    Etant un fan absolu de la solution Docker, j'ai presque toujours tendance à d'abord vérifier s'il existe une "image" Docker pour faire le job. "docker pdf to txt" sur Google et hop il donne https://hub.docker.com/r/kadock/pdftotext

    Bon, si tu ne connais pas Docker, c'est peut-être un peu (beaucoup) compliqué à mettre en place mais au final, il "suffit" d'installer Docker Desktop sur ton ordinateur et de lancer quelques lignes de commande.

    Je comprends bien que "suffit" est assez simpliste car quand c'est tout nouveau cela donne l'impression que c'est monstrueux.

    (Donc, avec Docker, tu restes en local, tu récupères un logiciel prêt à l'emploi qui fonctionnera directement sur ton ordinateur sans aucune installation / configuration / ... d'autre que d'installer "l'image" Docker et d'utiliser la command qui va bien)
    Christophe (cavo789)
    Mon blog, on y parle Docker, PHP, WSL, Markdown et plein d'autres choses : https://www.avonture.be

  5. #5
    Expert confirmé
    Avatar de laurentSc
    Homme Profil pro
    Webmaster débutant perpétuel !
    Inscrit en
    Octobre 2006
    Messages
    10 384
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Webmaster débutant perpétuel !
    Secteur : Industrie

    Informations forums :
    Inscription : Octobre 2006
    Messages : 10 384
    Points : 5 732
    Points
    5 732
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par cavo789 Voir le message
    Donc, avec Docker, tu restes en local, tu récupères un logiciel prêt à l'emploi qui fonctionnera directement sur ton ordinateur sans aucune installation
    Bonjour Christophe. Là, je lis que tu sembles utiliser Docker pour exécuter du code en local (même si y a du PHP dans le code, je suppose...). Cette façon de faire https://code.visualstudio.com/docs/remote/vscode-server, tu connais ? Et ça vaut quoi ?

    EDIT : c'est pas pour moi, mais pour une utilisatrice de VSC...
    Il vaut mieux viser la perfection et la manquer que viser l'imperfection et l'atteindre. - Bertrand Russell

    Si la discussion est résolue, merci de cliquer sur le bouton

  6. #6
    Membre émérite
    Avatar de cavo789
    Homme Profil pro
    Développeur Web
    Inscrit en
    Mai 2004
    Messages
    1 756
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Mai 2004
    Messages : 1 756
    Points : 2 990
    Points
    2 990
    Par défaut
    Je n'utilise plus que docker et plus rien d'autres. Je n'ai ni apache, ni php, ni composer, ni postgresql, ni mysql, ni redis, ni... (je pourrais continuer encore longtemps) ni rien sur ma machine seulement Docker. Et je travaille chaque jour en php donc, là tu me demandes de dire si je trouve que docker est sympa.

    Réponse : docker c'est mon oxygène.
    Christophe (cavo789)
    Mon blog, on y parle Docker, PHP, WSL, Markdown et plein d'autres choses : https://www.avonture.be

Discussions similaires

  1. [Python 3.X] extraire la couleur du text d'un fichier PDF
    Par MaJ19 dans le forum Général Python
    Réponses: 3
    Dernier message: 31/05/2021, 19h02
  2. Extraire texte d'un fichier pdf
    Par nicoaix dans le forum Langage
    Réponses: 7
    Dernier message: 03/02/2017, 16h30
  3. [FPDF] Extraire le texte d'un fichier PDF
    Par brune38 dans le forum Bibliothèques et frameworks
    Réponses: 3
    Dernier message: 13/10/2009, 10h26
  4. [COM] Extraire le texte d'un fichier "word" (.doc) avec
    Par ptikiwi dans le forum Bibliothèques et frameworks
    Réponses: 6
    Dernier message: 09/06/2006, 17h06
  5. modifier le texte d'un fichier pdf
    Par spilliaert dans le forum Documents
    Réponses: 2
    Dernier message: 23/05/2006, 23h19

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo