IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Creation regex python


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Candidat au Club
    Homme Profil pro
    Cyberdocumentaliste
    Inscrit en
    Août 2023
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Cyberdocumentaliste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Août 2023
    Messages : 5
    Points : 3
    Points
    3
    Par défaut Creation regex python
    Bonjour,

    Je cherche à trouver un regex pour extraire les informations présentes sur le pdf en PJ

    J'ai une centaine de pdf qui se présente de la même façon et il faudrait que j'extrais les informations qui sont dans environnement pour savoir à quelle distance se trouve le supermarché ou s'il y a un bus à la demande, etc.
    Pourriez-vous m'aider ?

    Merci

    001 BLANGY C COMPOIS 1.pdf

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut,

    Une regex s'applique à du texte (des suites de chaine de caractères). Là à première vue, ce sont des images (avec des caractères dessinés dessus). Un truc comme tesseract pourra peut être fabriquer le texte correspondant puis en fonction de ce qu'on obtient...

    Mais vous en êtes à l'étude de ce qui pourrait être fait pour où les outils à utiliser sont à trouver... dans un forum de développeurs python, on a déjà du code à montrer et des questions sur ce qu'il fait (et on ne va pas étudier la faisabilité de votre projet).

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre habitué
    Homme Profil pro
    Animateur Numérique
    Inscrit en
    Février 2013
    Messages
    137
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Animateur Numérique
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Février 2013
    Messages : 137
    Points : 199
    Points
    199
    Par défaut
    Salut,

    Est-ce bien nécessaire d'utiliser REGEX pour ça.

    Avec le module pdfplumber
    Il est très facile d'obtenir une liste de tous les éléments, surtout si tes PDF sont sur le même modèle et de les traiter.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    import pdfplumber
     
    with pdfplumber.open("mon_fichier.pdf") as pdf:
        page = pdf.pages[0]
        pdf_text = page.extract_text()
        list_text = pdf_text.split("\n")
        for elt in list_text:
            print(elt)
    PS : J'utilise plutôt pdfplumber que pypdf2, car ce dernier a tendance à me retourner les éléments en vrac.

  4. #4
    Candidat au Club
    Homme Profil pro
    Cyberdocumentaliste
    Inscrit en
    Août 2023
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Cyberdocumentaliste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Août 2023
    Messages : 5
    Points : 3
    Points
    3
    Par défaut
    Merci beaucoup pour vos réponses !

  5. #5
    Expert éminent
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    3 959
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 3 959
    Points : 9 300
    Points
    9 300
    Par défaut
    Hello,
    Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.
    Pour Diablo76 : le module pdfplumber à l'air très bien pour le pdf de queneau. Des regex (ou autre chose) sont nécessaires pour extraire des informations spécifiques.
    Voici un code (non optimisé) qui mets des infos type champ : valeur et champ « valeur » dans un dictionnaire.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    def main():
        fichier = "D:/Temp/seminor.Pdf"
        import pdfplumber
        import re
     
        with pdfplumber.open("d:/temp/seminor.pdf") as pdf:
            page = pdf.pages[0]
            pdf_text = page.extract_text()
            list_text = pdf_text.split("\n")
            dico = {}
            for elt in list_text:
                #print(elt)
                capture1 = re.findall(r'(.+) : (.+)', elt)
                for c,v in capture1:
                    #print(c,v)
                    dico[c] = v
                capture2 = re.findall(r'(.+) « (.+) »', elt)
                for c,v in capture2:
                    #print(c,v)
                    dico[c] = v
                capture3 = re.findall(r'(Bus à la demande)\s+(.+)\s*', elt)
                for c,v in capture3:
                    dico[c] = v
            print(dico)
            print('Distance Supermarché ->',dico['Super marché'])
            print('Bus à la demande ->',dico['Bus à la demande'])
     
     
     
     
    if __name__ == '__main__':
        main()
    Résultat sur le fichier de queneau :
    {'Ville': 'BLANGY SUR BRESLE', 'Adresse': 'Rue du Brianchon', 'Code postal': '76340', 'Financement': 'PLUS', 'Construction': '18/07/1961', 'Mise en location': '01/06/1964', 'Nature du bien': 'Immeubles collectifs', 'Nombre de bâtiments': '05', 'Nombre d’étages': 'R+4', 'Nombre de logements': '100', 'Ascenseur': 'Non', 'Chauffage': 'Collectif Gaz', 'SDB adaptée': 'Oui', 'Logement': 'conventionné', 'Super marché': '1,3 Km', 'Médecin généraliste': '700 m', 'Pharmacie': '1,1 km', 'Restaurant': '1,0 km', 'Mairie, Assurance, Post, Caf': '1 , 1 km', 'Ecole primaire': '1,1 km', 'Bus à la demande': 'Oui', 'Gare': '1 ,1 k m'}
    Distance Supermarché -> 1,3 Km
    Bus à la demande -> Oui
    Ami calmant, J.P
    Jurassic computer : Sinclair ZX81 - Zilog Z80A à 3,25 MHz - RAM 1 Ko - ROM 8 Ko

  6. #6
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.
    Désolé, j'ai peut être mal regardé mais je n'ai pas trouvé de texte dans le fichier fournit.
    => prématuré de faire des expressions régulières avant d'avoir extrait le texte de...
    Après, si le sujet est de faire la conception et d'écrire le code... effectivement on peut trouver des solutions.... Même payer quelqu'un pour s'y atteler à défaut de savoir le faire.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  7. #7
    Membre habitué
    Homme Profil pro
    Animateur Numérique
    Inscrit en
    Février 2013
    Messages
    137
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Animateur Numérique
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Février 2013
    Messages : 137
    Points : 199
    Points
    199
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    Hello,
    Pour Diablo76 : le module pdfplumber à l'air très bien pour le pdf de queneau. Des regex (ou autre chose) sont nécessaires pour extraire des informations spécifiques.

    Ami calmant, J.P
    Effectivement, c'est beaucoup mieux avec regex, j'étais parti sur beaucoup plus simple surtout si c'est destiné à être enregistré dans un fichier.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    import re
    import pdfplumber
     
    environment = ["Gare", "Bus", "Ecole"]
     
    with pdfplumber.open("test.pdf") as pdf:
        page = pdf.pages[0]
        pdf_text = page.extract_text()
        list_text = pdf_text.split("\n")
          for proximity in environment:
            for elt in list_text:
                if elt.find(proximity) != -1:
                    elt = re.sub("«|»", "", elt)
                    print(elt)

  8. #8
    Membre chevronné
    Homme Profil pro
    Enseignant
    Inscrit en
    Juin 2013
    Messages
    1 608
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Enseignant
    Secteur : Enseignement

    Informations forums :
    Inscription : Juin 2013
    Messages : 1 608
    Points : 2 072
    Points
    2 072
    Par défaut
    Citation Envoyé par Diablo76 Voir le message
    PS : J'utilise plutôt pdfplumber que pypdf2, car ce dernier a tendance à me retourner les éléments en vrac.
    L'an dernier, j'ai utilisé les deux car les infos données par l'un et l'autre étaient différentes (présence de tableaux, de lettres).
    Pas d'aide par mp.

Discussions similaires

  1. [Python 3.X] Creation regex python
    Par queneau dans le forum Général Python
    Réponses: 2
    Dernier message: 30/08/2023, 15h30
  2. [RegExp] Une regex Python en Javascript
    Par ____22 dans le forum Général JavaScript
    Réponses: 9
    Dernier message: 05/08/2011, 17h15
  3. Regex en python
    Par greg1517 dans le forum Général Python
    Réponses: 5
    Dernier message: 12/10/2009, 15h55
  4. regex : différence entre Perl et Python
    Par rambc dans le forum Général Python
    Réponses: 3
    Dernier message: 08/01/2009, 20h53
  5. python et regex
    Par olaxius dans le forum Général Python
    Réponses: 2
    Dernier message: 15/11/2006, 14h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo