IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Creation regex python


Sujet :

Python

  1. #1
    Candidat au Club
    Homme Profil pro
    Cyberdocumentaliste
    Inscrit en
    Août 2023
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Cyberdocumentaliste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Août 2023
    Messages : 5
    Points : 3
    Points
    3
    Par défaut Creation regex python
    Bonjour,

    Je cherche à trouver un regex pour extraire les informations présentes sur le pdf en PJ

    J'ai une centaine de pdf qui se présente de la même façon et il faudrait que j'extrais les informations qui sont dans environnement pour savoir à quelle distance se trouve le supermarché ou s'il y a un bus à la demande, etc.
    Pourriez-vous m'aider ?

    Merci

    001 BLANGY C COMPOIS 1.pdf

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut,

    Une regex s'applique à du texte (des suites de chaine de caractères). Là à première vue, ce sont des images (avec des caractères dessinés dessus). Un truc comme tesseract pourra peut être fabriquer le texte correspondant puis en fonction de ce qu'on obtient...

    Mais vous en êtes à l'étude de ce qui pourrait être fait pour où les outils à utiliser sont à trouver... dans un forum de développeurs python, on a déjà du code à montrer et des questions sur ce qu'il fait (et on ne va pas étudier la faisabilité de votre projet).

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre habitué
    Homme Profil pro
    Animateur Numérique
    Inscrit en
    Février 2013
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Animateur Numérique
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Février 2013
    Messages : 131
    Points : 186
    Points
    186
    Par défaut
    Salut,

    Est-ce bien nécessaire d'utiliser REGEX pour ça.

    Avec le module pdfplumber
    Il est très facile d'obtenir une liste de tous les éléments, surtout si tes PDF sont sur le même modèle et de les traiter.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    import pdfplumber
     
    with pdfplumber.open("mon_fichier.pdf") as pdf:
        page = pdf.pages[0]
        pdf_text = page.extract_text()
        list_text = pdf_text.split("\n")
        for elt in list_text:
            print(elt)
    PS : J'utilise plutôt pdfplumber que pypdf2, car ce dernier a tendance à me retourner les éléments en vrac.

  4. #4
    Candidat au Club
    Homme Profil pro
    Cyberdocumentaliste
    Inscrit en
    Août 2023
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Cyberdocumentaliste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Août 2023
    Messages : 5
    Points : 3
    Points
    3
    Par défaut
    Merci beaucoup pour vos réponses !

  5. #5
    Expert éminent
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    3 954
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 3 954
    Points : 9 284
    Points
    9 284
    Par défaut
    Hello,
    Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.
    Pour Diablo76 : le module pdfplumber à l'air très bien pour le pdf de queneau. Des regex (ou autre chose) sont nécessaires pour extraire des informations spécifiques.
    Voici un code (non optimisé) qui mets des infos type champ : valeur et champ « valeur » dans un dictionnaire.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    def main():
        fichier = "D:/Temp/seminor.Pdf"
        import pdfplumber
        import re
     
        with pdfplumber.open("d:/temp/seminor.pdf") as pdf:
            page = pdf.pages[0]
            pdf_text = page.extract_text()
            list_text = pdf_text.split("\n")
            dico = {}
            for elt in list_text:
                #print(elt)
                capture1 = re.findall(r'(.+) : (.+)', elt)
                for c,v in capture1:
                    #print(c,v)
                    dico[c] = v
                capture2 = re.findall(r'(.+) « (.+) »', elt)
                for c,v in capture2:
                    #print(c,v)
                    dico[c] = v
                capture3 = re.findall(r'(Bus à la demande)\s+(.+)\s*', elt)
                for c,v in capture3:
                    dico[c] = v
            print(dico)
            print('Distance Supermarché ->',dico['Super marché'])
            print('Bus à la demande ->',dico['Bus à la demande'])
     
     
     
     
    if __name__ == '__main__':
        main()
    Résultat sur le fichier de queneau :
    {'Ville': 'BLANGY SUR BRESLE', 'Adresse': 'Rue du Brianchon', 'Code postal': '76340', 'Financement': 'PLUS', 'Construction': '18/07/1961', 'Mise en location': '01/06/1964', 'Nature du bien': 'Immeubles collectifs', 'Nombre de bâtiments': '05', 'Nombre d’étages': 'R+4', 'Nombre de logements': '100', 'Ascenseur': 'Non', 'Chauffage': 'Collectif Gaz', 'SDB adaptée': 'Oui', 'Logement': 'conventionné', 'Super marché': '1,3 Km', 'Médecin généraliste': '700 m', 'Pharmacie': '1,1 km', 'Restaurant': '1,0 km', 'Mairie, Assurance, Post, Caf': '1 , 1 km', 'Ecole primaire': '1,1 km', 'Bus à la demande': 'Oui', 'Gare': '1 ,1 k m'}
    Distance Supermarché -> 1,3 Km
    Bus à la demande -> Oui
    Ami calmant, J.P
    Jurassic computer : Sinclair ZX81 - Zilog Z80A à 3,25 MHz - RAM 1 Ko - ROM 8 Ko

  6. #6
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.
    Désolé, j'ai peut être mal regardé mais je n'ai pas trouvé de texte dans le fichier fournit.
    => prématuré de faire des expressions régulières avant d'avoir extrait le texte de...
    Après, si le sujet est de faire la conception et d'écrire le code... effectivement on peut trouver des solutions.... Même payer quelqu'un pour s'y atteler à défaut de savoir le faire.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  7. #7
    Candidat au Club
    Homme Profil pro
    Cyberdocumentaliste
    Inscrit en
    Août 2023
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Cyberdocumentaliste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Août 2023
    Messages : 5
    Points : 3
    Points
    3
    Par défaut
    Merci jurassic pork ca fonctionne parfaitement !

  8. #8
    Candidat au Club
    Homme Profil pro
    Cyberdocumentaliste
    Inscrit en
    Août 2023
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Cyberdocumentaliste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Août 2023
    Messages : 5
    Points : 3
    Points
    3
    Par défaut
    jurassic pork il serait possible de faire ca d'un coup pour plusieurs pdf au sein d'un dossier et de sortir les résultats en format txt ?

  9. #9
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 690
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 690
    Points : 30 985
    Points
    30 985
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par jurassic pork Voir le message
    Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.
    Citation Envoyé par wiztricks Voir le message
    Désolé, j'ai peut être mal regardé mais je n'ai pas trouvé de texte dans le fichier fournit.
    Moi non plus, j'ai ouvert avec gvim et je trouve que dalle. Après peut-être que ce que tu veux dire c'est "une fois extraites avec pdfplumber (accessoirement merci de nous avoir donnés cette lib) les données deviennent lisibles comme du texte"... ce que tendrait à confirmer ton petit code bien sympa

    Citation Envoyé par queneau Voir le message
    jurassic pork il serait possible de faire ca d'un coup pour plusieurs pdf au sein d'un dossier et de sortir les résultats en format txt ?
    Tu places le code de jurassic pork dans une fonction qui reçoit en paramètre le fichier pdf à traiter (donc tu adaptes un petit peu ledit code qui ne doit plus ouvrir un fichier spécifique dont le nom est écrit en dur mais le fichier reçu en paramètre par la fonction).
    Et tu appelles ensuite la fonction pour chaque pdf.
    Ensuite pour le format texte tu as plusieurs possibilités
    • tu demandes spécifiquement à Python de créer le fichier texte (ouvrir le fichier via fp=open(...) et remplacer, dans le code, les print(truc) par print(truc, file=fp)
    • tu exécutes ton programme en demandant une redirection dans un fichier texte. Là ce n'est plus Python mais ton OS qui s'occupe alors de créer le texte
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  10. #10
    Expert éminent
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    3 954
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 3 954
    Points : 9 284
    Points
    9 284
    Par défaut
    Citation Envoyé par Sve@r Voir le message
    Moi non plus, j'ai ouvert avec gvim et je trouve que dalle. Après peut-être que ce que tu veux dire c'est "une fois extraites avec pdfplumber (accessoirement merci de nous avoir donnés cette lib) les données deviennent lisibles comme du texte"
    si on ouvre le pdf avec un navigateur (ex: edge) et que l'on sélectionne tout et qu'on copie (Ctrl+A Ctrl+C) quand on colle (Ctrl+V) dans un éditeur de texte (ex: bloc-notes) on voit bien le texte du pdf. Par contre pdfplum​ber à l'air de mettre le texte en ordre comme dans le pdf.
    Jurassic computer : Sinclair ZX81 - Zilog Z80A à 3,25 MHz - RAM 1 Ko - ROM 8 Ko

  11. #11
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 690
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 690
    Points : 30 985
    Points
    30 985
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    si on ouvre le pdf avec un navigateur (ex: edge) et que l'on sélectionne tout et qu'on copie (Ctrl+A Ctrl+C)
    Je comprends mieux. C'est le navigateur qui fait le travail de lire le pdf, extraire ses infos et les afficher. Ensuite Ctrl+A dans le navigateur sélectionne alors les textes affichés par le navigateur.
    Mais si quelqu'un ouvre directement le PDF avec un notepad, il n'y trouvera aucun texte.
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  12. #12
    Membre habitué
    Homme Profil pro
    Animateur Numérique
    Inscrit en
    Février 2013
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Animateur Numérique
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Février 2013
    Messages : 131
    Points : 186
    Points
    186
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    Hello,
    Pour Diablo76 : le module pdfplumber à l'air très bien pour le pdf de queneau. Des regex (ou autre chose) sont nécessaires pour extraire des informations spécifiques.

    Ami calmant, J.P
    Effectivement, c'est beaucoup mieux avec regex, j'étais parti sur beaucoup plus simple surtout si c'est destiné à être enregistré dans un fichier.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    import re
    import pdfplumber
     
    environment = ["Gare", "Bus", "Ecole"]
     
    with pdfplumber.open("test.pdf") as pdf:
        page = pdf.pages[0]
        pdf_text = page.extract_text()
        list_text = pdf_text.split("\n")
          for proximity in environment:
            for elt in list_text:
                if elt.find(proximity) != -1:
                    elt = re.sub("«|»", "", elt)
                    print(elt)

  13. #13
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Citation Envoyé par Sve@r Voir le message
    Mais si quelqu'un ouvre directement le PDF avec un notepad, il n'y trouvera aucun texte.
    Il est rare (mais pas exclu) qu'un document PDF contienne des caractères "normaux" (qu'on pourrait chercher via find ou expression régulière).
    On récupère souvent qu'un index dans une police de caractères donnée. Ce qui fait qu"il faut un interpréteur PDF pour récupérer quelque chose de digeste.
    Après, tout dépend de ce qu'on récupère et de ce qu'on cherche, il y aura besoin ou pas d'expression régulière.

    Citation Envoyé par jurassic pork Voir le message
    Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.
    Elles auraient pu mais ce n'est pas le cas.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  14. #14
    Membre chevronné
    Homme Profil pro
    Enseignant
    Inscrit en
    Juin 2013
    Messages
    1 608
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Enseignant
    Secteur : Enseignement

    Informations forums :
    Inscription : Juin 2013
    Messages : 1 608
    Points : 2 072
    Points
    2 072
    Par défaut
    Citation Envoyé par Diablo76 Voir le message
    PS : J'utilise plutôt pdfplumber que pypdf2, car ce dernier a tendance à me retourner les éléments en vrac.
    L'an dernier, j'ai utilisé les deux car les infos données par l'un et l'autre étaient différentes (présence de tableaux, de lettres).
    Pas d'aide par mp.

Discussions similaires

  1. [Python 3.X] Creation regex python
    Par queneau dans le forum Général Python
    Réponses: 2
    Dernier message: 30/08/2023, 15h30
  2. [RegExp] Une regex Python en Javascript
    Par ____22 dans le forum Général JavaScript
    Réponses: 9
    Dernier message: 05/08/2011, 17h15
  3. Regex en python
    Par greg1517 dans le forum Général Python
    Réponses: 5
    Dernier message: 12/10/2009, 15h55
  4. regex : différence entre Perl et Python
    Par rambc dans le forum Général Python
    Réponses: 3
    Dernier message: 08/01/2009, 20h53
  5. python et regex
    Par olaxius dans le forum Général Python
    Réponses: 2
    Dernier message: 15/11/2006, 14h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo