IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Importer texte d'un PDF


Sujet :

Langage PHP

  1. #1
    Membre éprouvé Avatar de Alvaten
    Homme Profil pro
    Développeur Java / Grails
    Inscrit en
    Novembre 2006
    Messages
    324
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur Java / Grails
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2006
    Messages : 324
    Points : 1 023
    Points
    1 023
    Par défaut Importer texte d'un PDF
    Bonjour à tous,

    J'ai cherché sans résultats un code pour importer le contenu (texte uniquement) de documents PDF dans PHP, j'en ai besoin pour faire de la recherche de contenu. Je ne peut pas utiliser d'executable externe comme XPDF, il me faut vraiment un code PHP.

    J'ai trouvé de nombreux sujet sur le forum et de nombreux code sur le net, le plus satisfaisant étant trouvé ici : http://pastebin.com/hRviHKp1

    Le problème c'est que je ne trouve pas de code qui me permet d'importer correctement les caractères accentué, à chaque fois l'output est en ASCII et j'aimerai quelque chose en UTF-8 idéalement.

    Si quelqu'un à une solution je suis preneur.

    Bonne soirée

    Alvaten

  2. #2
    Modérateur
    Avatar de sabotage
    Homme Profil pro
    Inscrit en
    Juillet 2005
    Messages
    29 208
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Juillet 2005
    Messages : 29 208
    Points : 44 155
    Points
    44 155
    Par défaut
    J'ai testé la classe que tu indiques et elle me fournit bien de l'unicode.
    Tu obtiens quoi à la place des accents ?
    N'oubliez pas de consulter les FAQ PHP et les cours et tutoriels PHP

  3. #3
    Membre éprouvé Avatar de Alvaten
    Homme Profil pro
    Développeur Java / Grails
    Inscrit en
    Novembre 2006
    Messages
    324
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur Java / Grails
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2006
    Messages : 324
    Points : 1 023
    Points
    1 023
    Par défaut
    Des ? ou des carrés blanc selon le navigateur.

    Je constate cependant que certains caractères sont correctes et d'autre non. Par exemple
    Sans utf8_encode :
    Aucune entr�e de table des mati�res [...] présenté le logiciel
    Avec utf8_encode() sur la sortie :
    Aucune entrée de table des matières [...] présenté le logiciel
    Il s'agit pourtant du même document, mais les "é" et "è" ne semble pas toujours être interprété de la même manière
    J'ai essayé avec plusieurs PDF toujours les mêmes incohérances.

    PS :
    Tout mes fichiers sont en UTF, et mon code HTML contient <meta charset="UTF-8">

    J'ai essayer de passer tout en ISO-8859-1 ca ne fonctionne pas mieux.

  4. #4
    Modérateur
    Avatar de sabotage
    Homme Profil pro
    Inscrit en
    Juillet 2005
    Messages
    29 208
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Juillet 2005
    Messages : 29 208
    Points : 44 155
    Points
    44 155
    Par défaut
    Est-ce que tu as possibilité de fournir un PDF qui te pose problème ?
    N'oubliez pas de consulter les FAQ PHP et les cours et tutoriels PHP

  5. #5
    Membre régulier
    Homme Profil pro
    Inscrit en
    Août 2012
    Messages
    145
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Août 2012
    Messages : 145
    Points : 88
    Points
    88
    Par défaut
    j'avais testé ce script, il y a 3 semaines environ, j'avais le même problème que Alvaten, certain pdf ne fonctionne pas.
    Je serrais vraiment interressé par une solution

    cédric

  6. #6
    Membre éprouvé Avatar de Alvaten
    Homme Profil pro
    Développeur Java / Grails
    Inscrit en
    Novembre 2006
    Messages
    324
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur Java / Grails
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2006
    Messages : 324
    Points : 1 023
    Points
    1 023
    Par défaut
    Salut,

    Voila un document qui ne fonctionne pas :

    http://pdf.lu/wKFU

    J'ai essayer d'exporter la sortie dans un .txt, et en l'analysant le truc je constate que certain les caractères n'ont pas tous le même encodage

    Vu en Hexa dans notepad++
    Par exemple :
    - "é" de réalisé (dans l'introduction) est codé 0xE9, qui est le "é" en ANSI
    - "é" de "présenté" (dans l'introduction) sont codés 0xC3 0xA9 qui est le "é" en UTF

    J'ai l'impression que la lib n'écrit pas systématiquement le même nombre de bits pour les caractères.
    0xC3A9 donne en binnaire 11000011 10101001, de ce que j'ai compris, les 3 premiers bit (110) indique que c'est un code UTF-8 et ces 2 octets représente bien un "é" correcte, alors que les "é" codé sur 1 octet ne sont pas interprétable en UTF (de ce que j'ai compris, il considère ca comme de l'ASCII dont il est retrocompatible, mais E9 n'existe pas en ASCII)

  7. #7
    Membre éprouvé Avatar de Alvaten
    Homme Profil pro
    Développeur Java / Grails
    Inscrit en
    Novembre 2006
    Messages
    324
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur Java / Grails
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2006
    Messages : 324
    Points : 1 023
    Points
    1 023
    Par défaut
    J'ai un peu "débugé" la lib, apparemment ca viens du PDF en lui-même. Quand le contenu est extrait, certain morceaux semblent sortir en ASCII (dont des caractères "invalide") et d'autre en UTF.

    Pire, j'ai réalisé que certains PDF générés avec PdfCreator sont purement et simplement illisible par la lib, et c'est l'outil utilisé pour créer les PDF que je dois indexer

Discussions similaires

  1. [Toutes versions] Extraire du texte d'un pdf et l'importer dans un tableau Excel (VBA)
    Par speedfree dans le forum Macros et VBA Excel
    Réponses: 5
    Dernier message: 06/12/2010, 09h03
  2. Importer le contenu texte d'un pdf dans un tableau
    Par speedfree dans le forum Macros et VBA Excel
    Réponses: 0
    Dernier message: 14/09/2010, 09h57
  3. [FPDF] Extraire le texte d'un pdf
    Par SandraG dans le forum Bibliothèques et frameworks
    Réponses: 13
    Dernier message: 08/10/2009, 14h48
  4. Inserer du texte dans un pdf
    Par RaimS dans le forum Général Conception Web
    Réponses: 4
    Dernier message: 09/06/2006, 15h58
  5. macro import text
    Par student007 dans le forum Access
    Réponses: 6
    Dernier message: 06/02/2006, 20h00

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo