IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes GNU Discussion :

pdftotext et caractère speciaux


Sujet :

Shell et commandes GNU

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Profil pro
    Inscrit en
    Février 2010
    Messages
    573
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2010
    Messages : 573
    Par défaut pdftotext et caractère speciaux
    Bonjour,

    J'essaye de convertir le fichier PDF d'un ami en mode text.
    J'utilise donc pdftotext.
    Ca marche impeccable sauf pour ce fichier (cf. en PJ, par discrétion, je l'ai un peu purgé)

    Il semblerait que le fichier pdf soit "codé"
    Par exemple le mot "diplôme" semble être décomposé entre "diplô" et "me"

    Savez-vous comment faire pour convertir ce fichier correctement ?
    Faut il supprimer les caractères spéciaux du pdf avant ? si oui, comment ?

    Merci pour vos lumières.

    PS : Je post dans cette section puisque je cherche une solution de type shell pour faire cette conversion et/ou remove caractère spéciaux du pdf ....

    Thais
    Images attachées Images attachées

  2. #2
    Membre expérimenté
    Avatar de demkada
    Homme Profil pro
    Architecte technique
    Inscrit en
    Août 2011
    Messages
    79
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Architecte technique

    Informations forums :
    Inscription : Août 2011
    Messages : 79
    Billets dans le blog
    3
    Par défaut
    Salut,
    Il me semble que c'est depuis le fichier original que vient le problème.
    L'éditeur avec lequel a été saisi le document ne l'a pas surement justifié, et quand la personne à fait un export en format PDF, le parseur PDF a dû le faire lui même et quand tu veux le reconvertir, il te le passe comme il l'avait trouvé?

    Ce que tu peux faire, c'est de le convertir en un document word traditionnel et d'ouvrir le nouveau document rtf avec Ms Word puis tu sélectionne le tout pour le justifier.
    Si ça marche pas, tu peux toujours supprimer les espaces à la main.

    Voici, un site te permettant de le faire en ligne http://www.pdfonline.com/convert-pdf-to-html/ C'est juste pour que tu sache que ton pdftotext n'y est pour rien

Discussions similaires

  1. Insertion caractères speciaux
    Par Halukard dans le forum Access
    Réponses: 3
    Dernier message: 19/02/2007, 11h46
  2. [C# 2.0]Problème de caractères speciaux
    Par Tatanne dans le forum Windows Forms
    Réponses: 2
    Dernier message: 05/07/2006, 02h51
  3. Probleme de lecture d'un fichier avec caractères speciaux
    Par bygui dans le forum Entrée/Sortie
    Réponses: 5
    Dernier message: 26/06/2006, 09h35
  4. Caractéres speciaux
    Par cerede2000 dans le forum Langage
    Réponses: 4
    Dernier message: 04/05/2006, 15h11
  5. delphi XML / HTML caractéres speciaux !
    Par adem dans le forum EDI
    Réponses: 2
    Dernier message: 29/08/2002, 17h48

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo