bonjour,
Avant (dans mes vieilles années 2010) on pouvait extraire le texte d'un PDF ou le convertir afin de traiter en lot les données inclues dans les fichiers PDF.
Je voulais effectuer le même traitement maintenant mais ça semble ne plus marcher.
J'ai un fichier PDF ouvert dans un éditeur basique (notepad++) et je ne vois pas le texte du pdf.
La norme PDF est 1.4 et le générateur du PDF est PDFsharp 1.32.2608-g (information inscrite dans les propriétés du fichier données par adobe reader). Même le texte PDFsharp n'est pas trouvable dans notepad ...
est-ce que le format 1.4 est sécurisé ou bien il y a un autre problème ?
Avant d'entreprendre la tache avec une librairie PHP, je préfère savoir à l'avance si c'est impossible ou pas...
Dans le pdf ouvert dans notepad, je ne vois aucun texte du pdf mais pourtant je vois les données structurelles du PDF :
qu'en pensez-vous ? ai-je une chance d'avoir un meilleur résultat avec une lib PHP que avec notepad++ ?%PDF-1.4
%ÓôÌá
1 0 obj
<<
/CreationDate(yþ6E뺂të+?ð‹9ÈÝÎð¸¿q)
/Creator(m€B±èÀ1ú-!ûŽˆ?ÓÕÑ°¨§!åV®È£h‹ÚÅ&ÿfrŽ)
/Producer(m€B±èÀ1ú-!ûŽˆ?ÓÕÑ°¨§!åV®È£h‹ÚÅ&ÿfrŽ)
>>
endobj
2 0 obj
<<
/Type/Catalog
/Pages 3 0 R
>>
endobj
3 0 obj
<<
/Type/Pages
/Count 1
/Kids[4 0 R]
>>
endobj
4 0 obj
<<
/Type/Page
/MediaBox[0 0 595 842]
/Parent 3 0 R
/Contents 5 0 R
/Resources
<<
/ProcSet [/PDF/Text/ImageB/ImageC/ImageI]
/XObject
<<
/I0 6 0 R
/I1 7 0 R
/I2 17 0 R
/I3 18 0 R
/I4 19 0 R
/I5 20 0 R
>>
/ExtGState
<<
/GS0 8 0 R
>>
/Font
<<
/F0 12 0 R
/F1 16 0 R
>>
>>
/Group
<<
/CS/DeviceRGB
/S/Transparency
/I false
/K false
>>
>>
endobj
5 0 obj
<<
/Length 2208
/Filter/FlateDecode
>>
stream...etc
Partager