Creation regex python

**queneau** · 15/11/2023, 16h13

Bonjour,

Je cherche à trouver un regex pour extraire les informations présentes sur le pdf en PJ

J'ai une centaine de pdf qui se présente de la même façon et il faudrait que j'extrais les informations qui sont dans environnement pour savoir à quelle distance se trouve le supermarché ou s'il y a un bus à la demande, etc.
Pourriez-vous m'aider ?

Merci

001 BLANGY C COMPOIS 1.pdf

**wiztricks** · 15/11/2023, 17h03

Salut,

Une regex s'applique à du texte (des suites de chaine de caractères). Là à première vue, ce sont des images (avec des caractères dessinés dessus). Un truc comme tesseract pourra peut être fabriquer le texte correspondant puis en fonction de ce qu'on obtient...

Mais vous en êtes à l'étude de ce qui pourrait être fait pour où les outils à utiliser sont à trouver... dans un forum de développeurs python, on a déjà du code à montrer et des questions sur ce qu'il fait (et on ne va pas étudier la faisabilité de votre projet).

- W

**Diablo76** · 15/11/2023, 20h13

Salut,

Est-ce bien nécessaire d'utiliser REGEX pour ça.

Avec le module pdfplumber

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

pip install pdfplumber

Il est très facile d'obtenir une liste de tous les éléments, surtout si tes PDF sont sur le même modèle et de les traiter.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
import pdfplumber
 
with pdfplumber.open("mon_fichier.pdf") as pdf:
    page = pdf.pages[0]
    pdf_text = page.extract_text()
    list_text = pdf_text.split("\n")
    for elt in list_text:
        print(elt)

PS : J'utilise plutôt pdfplumber que pypdf2, car ce dernier a tendance à me retourner les éléments en vrac.

**queneau** · 16/11/2023, 09h23

Merci beaucoup pour vos réponses !

**jurassic pork** · 16/11/2023, 11h20

Hello,
Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.
Pour Diablo76 : le module pdfplumber à l'air très bien pour le pdf de queneau. Des regex (ou autre chose) sont nécessaires pour extraire des informations spécifiques.
Voici un code (non optimisé) qui mets des infos type champ : valeur et champ « valeur » dans un dictionnaire.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
def main():
    fichier = "D:/Temp/seminor.Pdf"
    import pdfplumber
    import re
 
    with pdfplumber.open("d:/temp/seminor.pdf") as pdf:
        page = pdf.pages[0]
        pdf_text = page.extract_text()
        list_text = pdf_text.split("\n")
        dico = {}
        for elt in list_text:
            #print(elt)
            capture1 = re.findall(r'(.+) : (.+)', elt)
            for c,v in capture1:
                #print(c,v)
                dico[c] = v
            capture2 = re.findall(r'(.+) « (.+) »', elt)
            for c,v in capture2:
                #print(c,v)
                dico[c] = v
            capture3 = re.findall(r'(Bus à la demande)\s+(.+)\s*', elt)
            for c,v in capture3:
                dico[c] = v
        print(dico)
        print('Distance Supermarché ->',dico['Super marché'])
        print('Bus à la demande ->',dico['Bus à la demande'])
 
 
 
 
if __name__ == '__main__':
    main()

Résultat sur le fichier de queneau :

{'Ville': 'BLANGY SUR BRESLE', 'Adresse': 'Rue du Brianchon', 'Code postal': '76340', 'Financement': 'PLUS', 'Construction': '18/07/1961', 'Mise en location': '01/06/1964', 'Nature du bien': 'Immeubles collectifs', 'Nombre de bâtiments': '05', 'Nombre d’étages': 'R+4', 'Nombre de logements': '100', 'Ascenseur': 'Non', 'Chauffage': 'Collectif Gaz', 'SDB adaptée': 'Oui', 'Logement': 'conventionné', 'Super marché': '1,3 Km', 'Médecin généraliste': '700 m', 'Pharmacie': '1,1 km', 'Restaurant': '1,0 km', 'Mairie, Assurance, Post, Caf': '1 , 1 km', 'Ecole primaire': '1,1 km', 'Bus à la demande': 'Oui', 'Gare': '1 ,1 k m'}
Distance Supermarché -> 1,3 Km
Bus à la demande -> Oui

Ami calmant, J.P

**wiztricks** · 16/11/2023, 11h27

Envoyé par jurassic pork

Pour wiztricks : dans le fichier PDF de queneau les informations qu'il recherche sont bien en texte.

Désolé, j'ai peut être mal regardé mais je n'ai pas trouvé de texte dans le fichier fournit.
=> prématuré de faire des expressions régulières avant d'avoir extrait le texte de...
Après, si le sujet est de faire la conception et d'écrire le code... effectivement on peut trouver des solutions.... Même payer quelqu'un pour s'y atteler à défaut de savoir le faire.

- W

**Diablo76** · 16/11/2023, 16h18

Envoyé par jurassic pork

Hello,
Pour Diablo76 : le module pdfplumber à l'air très bien pour le pdf de queneau. Des regex (ou autre chose) sont nécessaires pour extraire des informations spécifiques.

Ami calmant, J.P

Effectivement, c'est beaucoup mieux avec regex, j'étais parti sur beaucoup plus simple surtout si c'est destiné à être enregistré dans un fichier.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import re
import pdfplumber
 
environment = ["Gare", "Bus", "Ecole"]
 
with pdfplumber.open("test.pdf") as pdf:
    page = pdf.pages[0]
    pdf_text = page.extract_text()
    list_text = pdf_text.split("\n")
      for proximity in environment:
        for elt in list_text:
            if elt.find(proximity) != -1:
                elt = re.sub("«|»", "", elt)
                print(elt)