IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langages de programmation Discussion :

Récupérer et trier des données depuis un PDF et les exporter sous un autre format


Sujet :

Langages de programmation

  1. #1
    Candidat au Club
    Homme Profil pro
    blabla
    Inscrit en
    Janvier 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : blabla

    Informations forums :
    Inscription : Janvier 2016
    Messages : 3
    Points : 4
    Points
    4
    Par défaut Récupérer et trier des données depuis un PDF et les exporter sous un autre format
    Bonjour,
    je me tourne vers vous car je pense que vous pourrez m'aider a y voir plus clair sur comment optimiser la création d'une note plus concise (type OneNote) depuis un PDF. Je script un peu en VBS mais je ne suis pas sûr que ce langage soit adapté à ce que je veux faire .
    J'ai des fiches PDF avec un tas d'informations qui ne m'intéressent pas. Je cherche à récupérer toujours les mêmes données (d'où l'idée d'automatisation):
    • elles ont toujours la même dénomination de catégorie

    • elles ne sont pas toujours à la même place

    • elles n'ont pas toujours la même longueur

    ci dessous un exemple des infos que je reçois
    Nom : Capture.PNG
Affichages : 524
Taille : 43,2 Ko
    Par exemple parfois le code insee est correctement rempli et non dans le en lieu dit.

    L'idée c'est de trouver ce qui me permettra de faire une fiche synthétique sur One Note à partir d'une automatisation. J'ai pensé ouvrir le PDF sur excel mais comme les infos ne sont pas au mêmes endroits je ne peux pas aller chercher dans la bonne cellule. De plus il faut importer le fichier dans excel. Je me disais que quelque chose type SQL en ouvrant la fiche PDF dans un navigateur pourrait permettre plus de flexibilité mais je ne suis pas assez à l'aise pour me dire si c'est possible et que ça vaut le coup de chercher ou si c'est pas viable ainsi et qu'il faut que je passe par une autre méthode (je suis preneur de tout).

    Merci de m'avoir lu et je vous remercie d'avance pour vos contributions!

  2. #2
    Modérateur
    Avatar de gangsoleil
    Homme Profil pro
    Manager / Cyber Sécurité
    Inscrit en
    Mai 2004
    Messages
    10 148
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Manager / Cyber Sécurité

    Informations forums :
    Inscription : Mai 2004
    Messages : 10 148
    Points : 28 113
    Points
    28 113
    Par défaut
    Bonjour,

    Tout est faisable, mais il faut savoir ce que tu veux faire !

    Dans le cas du code INSEE dont tu parles, il faut répondre aux questions suivantes :
    • Est-ce qu'il est forcément dans un de ces 2 champs ?
    • S'il n'est pas là, que faut-il faire ?
    • S'il est présent 2 fois, quelle valeur prendre ?
    • ...


    Après, il faut aussi savoir à quels outils tu as accès, et ce que tu connais. Personnellement, j'utiliserai un outil shell, du genre grep (simple mais peu puissant) ou awk (complexe et beaucoup plus puissant), à supposer que les données soient en texte dans ton PDF (qui peut aussi contenir des images). Tu parles de VB, je suppose donc que tu es sous Windows ?
    "La route est longue, mais le chemin est libre" -- https://framasoft.org/
    Les règles du forum

  3. #3
    Candidat au Club
    Homme Profil pro
    blabla
    Inscrit en
    Janvier 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : blabla

    Informations forums :
    Inscription : Janvier 2016
    Messages : 3
    Points : 4
    Points
    4
    Par défaut
    Bonjour,
    merci pour le début de réponse et pour répondre

    • Est-ce qu'il est forcément dans un de ces 2 champs ?
      oui
    • S'il n'est pas là, que faut-il faire ?
      cela ne s'est jamais produit, mais il faut générer le résumé car la correction demande une intervention humaine
    • S'il est présent 2 fois, quelle valeur prendre ?
      techniquement ce n'est pas possible

    En effet je suis dans un environnement windows, et en effet les PDF sont toujours au format texte. Je pense pas que je peux installer un serveur de type wamp.. Du coup les outils sont assez limités en effet, néanmoins je dois pouvoir faire du SQL via
    access si ça peut être une solution ...
    Comme je disais je souhaite reprendre une tache répétitive de création d'une fiche résumé sur OneNote (ça peut se changer) depuis une fiche PDF.

    Merci pour les suggestions

  4. #4
    Modérateur
    Avatar de gangsoleil
    Homme Profil pro
    Manager / Cyber Sécurité
    Inscrit en
    Mai 2004
    Messages
    10 148
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Manager / Cyber Sécurité

    Informations forums :
    Inscription : Mai 2004
    Messages : 10 148
    Points : 28 113
    Points
    28 113
    Par défaut
    Hello,

    Je ne connais pas du tout VB ou VBS, mais en gros je pense que ton algo sera le suivant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    Recherche le champs INSEE, prends le champs suivant
    Si pas trouvé
      Recherche l'autre champs, prends le suivant
        Si pas trouvé
          afficher erreur
        FSi
    Fsi
    Où est-ce que tu coinces ?
    "La route est longue, mais le chemin est libre" -- https://framasoft.org/
    Les règles du forum

  5. #5
    Expert éminent sénior
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 369
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 369
    Points : 41 518
    Points
    41 518
    Par défaut
    Les fichiers PDF ne sont pas au format texte dans mes souvenirs, mais dans un format qui est cauchemardesque à analyser.
    Ce sera justement là la majorité du problème: trouver les champs qu'on cherche et leur valeur.
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

  6. #6
    Candidat au Club
    Homme Profil pro
    blabla
    Inscrit en
    Janvier 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : blabla

    Informations forums :
    Inscription : Janvier 2016
    Messages : 3
    Points : 4
    Points
    4
    Par défaut
    Bonjour,
    @Médinoc : je fais un bête copier coller dans excel et il m'affiche une ligne par cellule de la colonne A. C'est pas pire que ce que je pensais ...
    @gangsoleil : ça devrait ressembler à ça en effet.

    En gros je vais devoir fonctionner avec des loops et des if pour lire toutes les données et faire des recherches de caractères. Ça doit être le début de la solution je pense.
    Je fais quelques essais sur le VB et je reviens vers vous.
    Merci

  7. #7
    Expert éminent sénior
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 369
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 369
    Points : 41 518
    Points
    41 518
    Par défaut
    Le résultat d'un copier-coller dans Excel devrait en effet être beaucoup plus facile à analyser (surtout en VBA) que le fichier .pdf lui-même.
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

  8. #8
    Membre éclairé

    Inscrit en
    Novembre 2008
    Messages
    417
    Détails du profil
    Informations forums :
    Inscription : Novembre 2008
    Messages : 417
    Points : 826
    Points
    826
    Par défaut
    J'abonde dans le sens de Medinoc.
    PDF est un format descriptif pour l'impression.
    Tout est à base de boîte positionnées selon leurs coordonnées. Pas de notion de titre, par exemple.

    A analyser par programme, autant que je me souvienne, c'est à mi-chemin entre le texte et le jpg.
    Donc, pour moi, le plus efficace, c'est de trouver un convertisseur appelable en ligne de commande ou une bibliothèque dans le langage voulu pour enregistrer le pdf au format texte et de travailler sur le résultat.
    Sinon, c'est vraiment casse bonbons, le pdf.

Discussions similaires

  1. [LibreOffice][Tableur] Trier des données depuis un autre onglet
    Par vector2 dans le forum OpenOffice & LibreOffice
    Réponses: 2
    Dernier message: 28/06/2017, 16h53
  2. [XL-2010] Trier des données d'un tableau avant d'exporter
    Par Thierry_59300 dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 11/04/2016, 14h13
  3. [XL-2010] Trier des valeurs dans une feuille et les mettre dans une autre feuille
    Par maharo1 dans le forum Macros et VBA Excel
    Réponses: 8
    Dernier message: 19/12/2011, 16h02
  4. [AC-2007] récupérer des données depuis fichier PDF
    Par Phil_Théatre dans le forum Access
    Réponses: 3
    Dernier message: 01/11/2010, 19h07
  5. Réponses: 3
    Dernier message: 11/04/2007, 15h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo