IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Documents Java Discussion :

PDF - Remplacer texte par un autre


Sujet :

Documents Java

  1. #1
    Membre confirmé
    Inscrit en
    Décembre 2003
    Messages
    99
    Détails du profil
    Informations forums :
    Inscription : Décembre 2003
    Messages : 99
    Par défaut PDF - Remplacer texte par un autre
    Bonjour,

    Cela ne semble pas possible, mais j'aimerais en être sur, est-il possible en java de remplacer une chaine de caractère par une autre dans un fichier PDF ?

    Itext ne semble pas le faire, je n'ai pratiquement rien trouver sur google(en gratuit) et la seule discussion sur le forum date de juillet 2007.

    Peut-être y-a-t-il du nouveau ?

    Merci d'avance.

  2. #2
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Par défaut
    Non, je crois pas, on peut rechercher & ajouter du contenu, mais pas en remplacer.

  3. #3
    Membre confirmé
    Inscrit en
    Décembre 2003
    Messages
    99
    Détails du profil
    Informations forums :
    Inscription : Décembre 2003
    Messages : 99
    Par défaut
    Merci, pour cette réponse.

    Si on peut rechercher et ajouter, peut-on supprimer du texte ?
    Car dans ce cas l'algo de remplacement serait :
    -Rechercher la chaîne à remplacer
    -Supprimer la chaîne
    -Ajout la nouvelle chaine à la même position.

    Est-ce envisageable ?

  4. #4
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Par défaut
    Non plus, faut voir ça comme de la peinture, tu ne peux qu'ajouter des couches au dessus des précédentes, enfin je pense.

  5. #5
    Membre confirmé
    Inscrit en
    Décembre 2003
    Messages
    99
    Détails du profil
    Informations forums :
    Inscription : Décembre 2003
    Messages : 99
    Par défaut


    Il n'existe pas une autre librairie qui pourrait faire ça ?
    C'est incroyable qu'il n'y ai pas de moyen de faire ça

    Je ne connais pas bien le format PDF, mais le texte semble être dans des "stream object" dont l'encodage, la compression, la taille sont spécifiés dans les "méta-données" de cet objet.
    N'est-il alors pas possible de lire ce fichier en mode "binaire", de rechercher ces "stream object", de les décoder, de remplacer et de ré-encoder ?
    Certes cela ne semble pas trivial, mais il existe peut-être quelqu'un qui a déjà fait ça, ou qui s'y connait suffisamment en format pdf pour établir un algorithme ?

    J'ai fait un pdf avec "pdf creator" puis ouvert avec ultraedit le texte semble être encadré entre obj et endboj, la méthode de compression est du "zlib":
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    %PDF-1.4
    %Çì¢
    5 0 obj
    <</Length 6 0 R/Filter /FlateDecode>>
    stream
    xœeŒ11…÷üŠŒíp1éµ—fD”nât¨Ó)þ|ÛA0|¼ÌÈ$¹åãŒÛÚÌ©o·ˆ_'\Xëª\ÉÌ¢,NP™2êÀ±Lpr{ß	¥Òà¾c
    –$«»8šF‡%ªZpOß’!¥ì.¾§j_õSÏlÿ’C[ŸË65o*ÿ*èendstream
    endobj
    ....
    Fais-je fausse route ? Quelqu'un a-t-il déjà fait ça ?

  6. #6
    Membre confirmé
    Inscrit en
    Décembre 2003
    Messages
    99
    Détails du profil
    Informations forums :
    Inscription : Décembre 2003
    Messages : 99
    Par défaut
    J'ai fait une tentative pour décoder l' "object stream" avec la classe Inflater de java.util.zip et voici le résultat :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    q 0.12 0 0 0.12 0 0 cm
    0 G
    0 g
    q
    8.33333 0 0 8.33333 0 0 cm BT
    /R7 12 Tf
    0.99941 0 0 1 70.8 760.4 Tm
    [(M)-1.52556(o)-0.295187(n)-0.294974( )-0.147792(t)-2.16558(e)3.74(x)-10.3009(t)-2.16558(e)3.74024( )]TJ
    ET
    Q
    Q
    Mon texte est bien là (entre BT et ET), mais apparemment je suis pas sortie de l'auberge, à quoi correspondent les chiffres décimaux après les lettres ? La position sur la ligne ? Mais quelle est le point de référence, -1.52556 par rapport à quoi ?

    Je suis en train de me demander si ca vaut vraiment le coup tout ce bazar, et si java est finalement bien adapté.
    Mon problème est simplement de remplacer certains champs particuliers par une valeur (ex : Remplacer {_NOM_} par Chico).
    N'y a-t-il pas une commande système permettant de faire ça sous linux ? Genre un sed mais pour du pdf ?

  7. #7
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Par défaut
    Euh, non c'est pas tellement java, le pb, mais le format PDF qui est orienté impression et mélange le contenu avec toutes les infos d'impression.
    J'ai creusé également un peu la chose, la dernière version d'iText contient une classe intéressante à desosser, mais faudrait vraiment bien comprendre le format PDF pour aller plus loin.
    com.lowagie.text.pdf.parser.SimpleTextExtractingPdfContentStreamProcessor

    Un example de son utilisation
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    PdfReader reader = new PdfReader(fileInPath);
    RandomAccessFileOrArray f = reader.getSafeFile();
     
    int pageNum = 1;
    PdfDictionary pageDictionary = reader.getPageN(pageNum);
    PdfDictionary resourcesDic = pageDictionary.getAsDict(PdfName.RESOURCES);
    byte[] bytes= reader.getPageContent(pageNum, f);
     
     
    SimpleTextExtractingPdfContentStreamProcessor extractionProcessor = new SimpleTextExtractingPdfContentStreamProcessor();
    extractionProcessor.processContent(bytes, resourcesDic);
    pw.println(extractionProcessor.getResultantText());
     
     
    pw.flush();
    C'est encore à un niveau trop macro, mais si t'as le courage de désosser le parser, c'est peut être une bonne voie.
    C'est encore à un niveau trop macro

  8. #8
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Par défaut
    Ton document original doit forcément être en PDF?
    Si c'est la cas, je vois juste les "acroForm" qui pourraient peut être t'aider. Ils permettent de créer un formulaire pdf que on peut programmatiquement valuer puis faire disparaitre le champ (flattening).

  9. #9
    Membre confirmé
    Inscrit en
    Décembre 2003
    Messages
    99
    Détails du profil
    Informations forums :
    Inscription : Décembre 2003
    Messages : 99
    Par défaut
    Salut,

    Hélas , mon document est forcément au format PDF, effectivement un format plus "textuel" aurait été plus facile.

    J'ai essayé de faire quelque tests en codant mes propres fonctions pour rechercher du texte, ca marche plutôt bien, reste à savoir si ca marche dans tous les cas .
    La partie la plus compliquée va être de remplacer le texte et de recalculer via la matrice de transformation la position du texte .
    A priori, mettre dans le texte (T)-1.23(o)-1.25(t)-1.52(o)-2.5 ou (T)(o)(t)(o) ne fait pas de grandes différences visuellement, en tout cas je ne les vois pas.

    J'ai pas eu encore le courage de regarder le parser ni les acro forms, mais pourrais-tu m'en dire plus sur les acro forms (un bon lien), google n'est pas forcément très bavard sur le sujet.

    N'y a t-il pas un utilitaire (en gros un ".exe") qui permettrait de faire ce remplacement par un appel system ?

  10. #10
    Membre confirmé
    Inscrit en
    Décembre 2003
    Messages
    99
    Détails du profil
    Informations forums :
    Inscription : Décembre 2003
    Messages : 99
    Par défaut
    Bon, je pense passer par une autre méthode car c'est compliqué de recalculer la position du texte remplacé quand on sait pas comment il est calculé à la base

    J'aimerais convertir le pdf dans un format intermédiaire, remplacer les champs et convertir le format intermédiaire en pdf.

    Je m'interroge sur le format intermédiaire, l'HTML ferait bien l'affaire, mais il ne semble pas y avoir grand chose comme librairie free pour faire Pdf->HTML->Pdf de façon simple en java (c.à.d. ne pas ré-écrire le parsing).

    Je pensais sinon au format XML, mais ca me semble tout aussi compliquer.

    Avez-vous une idée d'un format intermédiaire ? Ou d'une librairie permettant de faire PDF->(HTML ou XML)->PDF ?

    Merci d'avance.

  11. #11
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Par défaut
    Je te conseillerais d'abandonner le pdf comme format pivot et d'en prendre un fait pour être manipulable comme odf, wordml/openxml.

    Enfin, sinon il existe un filtre d'import pdf pour openoffice3 http://extensions.services.openoffic...ject/pdfimport
    Donc la conversion pdf->odf est possible (et les autres format que suppote OO).
    Et je viens de le tester, il marche pas mal du tout!

    Ce qui est intéressant c'est qu'on peut faire tourner OO en mode serveur (faut qu'il y ait un serveur X je crois), et l'interroger via une API (UNO je crois).

Discussions similaires

  1. Réponses: 8
    Dernier message: 27/06/2012, 23h54
  2. [PDF] Remplacer un texte par un autre dans un PDF
    Par scourjean dans le forum Bibliothèques et frameworks
    Réponses: 0
    Dernier message: 24/08/2011, 10h07
  3. Remplacer une ligne d'un fichier texte par une autre
    Par devalender dans le forum WinDev
    Réponses: 12
    Dernier message: 24/07/2007, 20h51
  4. Remplacement d'un texte par un autre
    Par Iria77 dans le forum Général Python
    Réponses: 3
    Dernier message: 21/08/2006, 09h56
  5. Remplacer un texte par un autre
    Par Guillaume602 dans le forum C++
    Réponses: 3
    Dernier message: 24/11/2005, 01h40

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo