Creation regex python

**queneau** · 30/08/2023, 14h44

Bonjour,

Je viens de commencer à utiliser python pour mon travail pour extraire certaines data de fichier PDF, j'ai réussi a écrire un script qui fonctionne pour récupérer une info précise. Mais maintenant j'aimerai récupérer une adresse dans 300 fichiers mais l'adresse peut différer dans sa syntaxe. Pouvez-vous m'aider à créer le regex récupérer ces data ?
Merci beaucoup

Voici quelques exemples :
- DA COSTA DAVID
Appartement 15
- BAT 15-7480203
2 R DES BOUCHERS
36100 ISSOUDUN

- BLANCHARD SABINE
Appartement _
- BAT 1-7480197
4 R JULES MASSENET
36000 CHATEAUROUX

Mme MARIE AUDINEAU
Appartement _
- BAT 6-7480219
8 BIS RUE PASTEUR
36000 CHATEAUROUX

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
# importing required modules
from PyPDF2 import PdfReader
from sys import argv
import os
import re
 
# creating a pdf reader object
dossier = 'TEST DPE'
i = 1
# Pour chaque fichier du répertoire dossier
for f in os.listdir(dossier):
    # Compteur
    print(f"Fichier numéro {i}")
    i += 1
    # ouvre fichier resultat
    with open('results.csv', 'a') as file_r:
        # On essaye d'ouvrirle pdf
        try:
            reader = PdfReader(dossier + "/" + f)
        except:
            # Si jamais ca marche pas on ecrit dans le fichier resultat et on passe au pdf suivant
            file_r.write(f"{f}")
            continue
        # Extraction du texte (attention si pdf scanné ou image ceci ne fonctionne pas)
        text = ''
        for p in reader.pages:
            text += p.extract_text()
 
        #regex pour trouver le numéro ADEM
        res = re.findall('[0-9]{2}', text)  
        #Dedupliquer les resultats (set prend une liste et la rend unique)
        res = set(res)
        #ecrire le resultat dans le fichier resultat
        file_r.write(f"{f}")
        if res:
            for r in res:
                file_r.write(f",{r}")
        file_r.write('\n')

Creation regex python

Python

Mode arborescent

Discussions similaires

Partager

Partager