Extraire le texte d'un fichier PDF de norme 1.4

**clavier12AZQSWX** · 25/05/2023, 09h59

bonjour,

Avant (dans mes vieilles années 2010) on pouvait extraire le texte d'un PDF ou le convertir afin de traiter en lot les données inclues dans les fichiers PDF.
Je voulais effectuer le même traitement maintenant mais ça semble ne plus marcher.
J'ai un fichier PDF ouvert dans un éditeur basique (notepad++) et je ne vois pas le texte du pdf.
La norme PDF est 1.4 et le générateur du PDF est PDFsharp 1.32.2608-g (information inscrite dans les propriétés du fichier données par adobe reader). Même le texte PDFsharp n'est pas trouvable dans notepad ...

est-ce que le format 1.4 est sécurisé ou bien il y a un autre problème ?
Avant d'entreprendre la tache avec une librairie PHP, je préfère savoir à l'avance si c'est impossible ou pas...
Dans le pdf ouvert dans notepad, je ne vois aucun texte du pdf mais pourtant je vois les données structurelles du PDF :

%PDF-1.4
%ÓôÌá
1 0 obj
<<
/CreationDate(yþ6Eëº‚të+?ð‹9ÈÝÎð¸¿q)
/Creator(m€B±èÀ1ú-!ûŽˆ?ÓÕÑ°¨§!åV®È£h‹ÚÅ&ÿfrŽ)
/Producer(m€B±èÀ1ú-!ûŽˆ?ÓÕÑ°¨§!åV®È£h‹ÚÅ&ÿfrŽ)
>>
endobj
2 0 obj
<<
/Type/Catalog
/Pages 3 0 R
>>
endobj
3 0 obj
<<
/Type/Pages
/Count 1
/Kids[4 0 R]
>>
endobj
4 0 obj
<<
/Type/Page
/MediaBox[0 0 595 842]
/Parent 3 0 R
/Contents 5 0 R
/Resources
<<
/ProcSet [/PDF/Text/ImageB/ImageC/ImageI]
/XObject
<<
/I0 6 0 R
/I1 7 0 R
/I2 17 0 R
/I3 18 0 R
/I4 19 0 R
/I5 20 0 R
>>
/ExtGState
<<
/GS0 8 0 R
>>
/Font
<<
/F0 12 0 R
/F1 16 0 R
>>
>>
/Group
<<
/CS/DeviceRGB
/S/Transparency
/I false
/K false
>>
>>
endobj
5 0 obj
<<
/Length 2208
/Filter/FlateDecode
>>
stream...etc

qu'en pensez-vous ? ai-je une chance d'avoir un meilleur résultat avec une lib PHP que avec notepad++ ?

**chrtophe** · 26/05/2023, 09h35

Je ne connais pas spécifiquement l'encodage interne des fichiers pdf, mais il se peut que le texte soit compressé et donc non visible depuis un éditeur. il faudrait voir avec un outil PHP de traitement PDF.

**clavier12AZQSWX** · 26/05/2023, 09h59

on trouve une panacée d'outils en ligne gratuit pour convertir un pdf en txt , mais je peux pas essayer car je me doute bien que les serveurs gardent le PDF chez eux pour l'exploiter.... Les documents pdf dont j'ai la responsabilité n'ont pas teneurs à être mis en ligne à cause du caractère personnel.
J'ai un lamp XAMP installé en local, au cas où vous connaisseriez un projet de test rapide à installer pour savoir si le texte du PDF est crypté ou pas. En tout cas, à l'écran il est sélectionnable/copiable dans Adobe Reader.
C'est étrange, car je me souviens bien qu'à l'époque (entre 2000 et 2010), on pouvait lire le contenu textuel d'un pdf à partir d'un simple éditeur comme notepad/vi/vim ....

**cavo789** · 26/05/2023, 10h18

Bonjour

Etant un fan absolu de la solution Docker, j'ai presque toujours tendance à d'abord vérifier s'il existe une "image" Docker pour faire le job. "docker pdf to txt" sur Google et hop il donne https://hub.docker.com/r/kadock/pdftotext

Bon, si tu ne connais pas Docker, c'est peut-être un peu (beaucoup) compliqué à mettre en place mais au final, il "suffit" d'installer Docker Desktop sur ton ordinateur et de lancer quelques lignes de commande.

Je comprends bien que "suffit" est assez simpliste car quand c'est tout nouveau cela donne l'impression que c'est monstrueux.

(Donc, avec Docker, tu restes en local, tu récupères un logiciel prêt à l'emploi qui fonctionnera directement sur ton ordinateur sans aucune installation / configuration / ... d'autre que d'installer "l'image" Docker et d'utiliser la command qui va bien)

**laurentSc** · 01/06/2023, 14h18

Envoyé par cavo789

Donc, avec Docker, tu restes en local, tu récupères un logiciel prêt à l'emploi qui fonctionnera directement sur ton ordinateur sans aucune installation

Bonjour Christophe. Là, je lis que tu sembles utiliser Docker pour exécuter du code en local (même si y a du PHP dans le code, je suppose...). Cette façon de faire https://code.visualstudio.com/docs/remote/vscode-server, tu connais ? Et ça vaut quoi ?

EDIT : c'est pas pour moi, mais pour une utilisatrice de VSC...

**cavo789** · 01/06/2023, 21h10

Je n'utilise plus que docker et plus rien d'autres. Je n'ai ni apache, ni php, ni composer, ni postgresql, ni mysql, ni redis, ni... (je pourrais continuer encore longtemps) ni rien sur ma machine seulement Docker. Et je travaille chaque jour en php donc, là tu me demandes de dire si je trouve que docker est sympa.

Réponse : docker c'est mon oxygène.

Extraire le texte d'un fichier PDF de norme 1.4

Langage PHP

Discussions similaires

Partager

Partager