1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
| # importing required modules
from PyPDF2 import PdfReader
from sys import argv
import os
import re
# creating a pdf reader object
dossier = 'TEST DPE'
i = 1
# Pour chaque fichier du répertoire dossier
for f in os.listdir(dossier):
# Compteur
print(f"Fichier numéro {i}")
i += 1
# ouvre fichier resultat
with open('results.csv', 'a') as file_r:
# On essaye d'ouvrirle pdf
try:
reader = PdfReader(dossier + "/" + f)
except:
# Si jamais ca marche pas on ecrit dans le fichier resultat et on passe au pdf suivant
file_r.write(f"{f}")
continue
# Extraction du texte (attention si pdf scanné ou image ceci ne fonctionne pas)
text = ''
for p in reader.pages:
text += p.extract_text()
#regex pour trouver le numéro ADEM
res = re.findall('[0-9]{2}', text)
#Dedupliquer les resultats (set prend une liste et la rend unique)
res = set(res)
#ecrire le resultat dans le fichier resultat
file_r.write(f"{f}")
if res:
for r in res:
file_r.write(f",{r}")
file_r.write('\n') |
Partager