IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

aide Pdf en Txt


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    21
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 21
    Par défaut aide Pdf en Txt
    Bonjour,

    J'essaye de mettre un pdf au format txt (les lois françaises donc 800 pages à laisser dans la même forme pour découper ensuite) donc j'ai testé pdfminer mais la mise en forme n'est pas correct par exemple :
    pdf :
    1° Connaître

    txt :
    1
    °
    Conna
    î
    tre
    J'ai testé pypdf mais lui ne respect pas du tout la mise en forme. Est ce que vous avez une aide à me proposer ?
    L'application que je développe est en Django

  2. #2
    Membre éprouvé

    Profil pro
    Account Manager
    Inscrit en
    Décembre 2006
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Account Manager

    Informations forums :
    Inscription : Décembre 2006
    Messages : 2 301
    Par défaut
    Bonjour,
    je ne pense pas que l'on puisse attendre des miracles de ce genre d'outils. As-tu essayé un copier coller depuis le document PDF vers un fichier TXT pour comparer ?

    Pour ma part, je l'ai testé sur un PDF produit avec LaTeX, et j'avoue être assez bluffé par la sortie même si cela est un peu le bazar il y a pas mal de choses bien récupérées.

    Pour finir, le projet pdfminer a un groupe sur Google, tu peux y poser une ta question, histoire de faire évoluer ce projet, en n'oubliant un retour ici.

  3. #3
    Membre éclairé

    Inscrit en
    Novembre 2008
    Messages
    424
    Détails du profil
    Informations forums :
    Inscription : Novembre 2008
    Messages : 424
    Par défaut
    Le problème du pdf tient au fait qu'il s'organise en cadre, lignes et autres.
    Par exemple, souvent, un tableau n'est autre qu'un ensemble de cadres de textes positionnés indépendamment les uns des autres avec des lignes verticales et horizontales (indépendantes également).

    Du coup, à ma connaissance (et j'ai cherché pas mal !) il n'existe pas d'outil libre ou gratuit permettant ce genre de truc.

    Malgré tout, Open office permet d'ouvrir des pdf pour les modifier avec Draw (ça met en évidence le coup des cadres, des lignes...)

    Pour ma part, le seul truc que j'ai réussi à faire, c'est
    - transformer le pdf en texte avec un outil du genre xpdf - pdftotext (avec les problèmes de mise en page que tu évoques)
    - traiter le texte résultant par des procédures de remise en forme du texte, ce qui suppose de réussir à trouver les motifs pertinent pour remettre le texte en forme (très compliqué dès qu'il y a des tableaux et ce genre de trucs).

    pdf = cauchemar de l'automatisation

Discussions similaires

  1. [vb] morceaux d'un pdf vers txt
    Par elscorpio dans le forum VB.NET
    Réponses: 1
    Dernier message: 20/04/2010, 00h46
  2. Convertion pdf en txt
    Par alex_95 dans le forum Macros et VBA Excel
    Réponses: 7
    Dernier message: 11/03/2008, 12h20
  3. Réponses: 1
    Dernier message: 19/11/2007, 13h35
  4. récuperer les noms de fichiers pdf, word, Txt
    Par hervé_débutant dans le forum Macros et VBA Excel
    Réponses: 2
    Dernier message: 02/08/2007, 11h36
  5. [MFC] convertir un fichier Pdf to txt
    Par mqsi dans le forum MFC
    Réponses: 2
    Dernier message: 19/01/2007, 11h14

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo