Extraire le contenu d'un .pdf en Python

Version imprimable

Voir 40 message(s) de cette discussion en une page

Bonjour ,
ci dessous mon code, j'ai du mal a faire une boucle sur les fichiers et lire juste les premieres pages de mes fichiers pdf. Si le mot que je recherche se trouve dans la premiere page du pdf, la valeur 'partenaire' est renseigné dans le fichier excel avec un 'OK' à coté et je passe au pdf suivant. Je suis débutant donc je bloque un peuu:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
 
 
    path_extraction_folder = "C:/Users/xxxxx/yyyyyy/pdf"
    list_path = glob.glob(path_extraction_folder+"/**/*.pdf",recursive=True)
 
    cpt = 0
    for path in list_path:
        path_base = "/".join(str(path).replace("\\","/").split("/")[:-1])
        new_path = os.path.join(path_base, str(cpt)+".pdf")
        os.rename(path, new_path)
        cpt +=1
 
    partenaires = [x.split("\\")[1] for x in list_path]
    type_doc = [x.split("\\")[2] for x in list_path]
    nom_fichier = [x.split("\\")[-1] for x in list_path]
 
    df_files = pd.DataFrame()
    df_files["partenaire"] = partenaires
    df_files["nom dossier"] = type_doc
    df_files["nom fichier"] = nom_fichier
    df_files.to_excel("./files-tree_.xlsx",index=False)
 
    df_files = pd.read_excel("./files-tree_.xlsx")
    df_files["partenaire"] = df_files["partenaire"].apply(lambda x : 
    str(x).rjust(14,'0'))
 
    #Here is my issue, I want to do a loop on the 'partenaire' of my df_file but idk 
    #how
 
    path = file_path
    pdf = pyPdf.PdfFileReader(open(path, "rb"))
    fp = file(path, 'rb')
    num_of_pages = pdf.getNumPages()
    extract = ""
    for i in range(num_of_pages):
      inside = [i]
      pagenos=set(inside)
      rsrcmgr = PDFResourceManager()
      retstr = StringIO()
      codec = 'utf-8'
      laparams = LAParams()
      device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
      interpreter = PDFPageInterpreter(rsrcmgr, device)
      password = ""
      maxpages = 0
      caching = True
      text = ""
      for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, 
    password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
        text = retstr.getvalue()
        text = text.decode("ascii","replace")
        if re.search(r"PLAN D'EPARGNE EN ACTIONS|PLAN D'EPARGNE EN 
    ACTIONS)",text.lower()):
            print text
            extract = extract + text + "\n" 
            continue

Merci d'avance

Citation:

Envoyé par marco056

Il suffit juste de reprendre le code que j'ai mis plus haut et de remplacer la ligne qui faut par :

Code:

for page in pdf_reader.pages:[3]

puis de boucler sur les différents fichiers.

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
 
    path_extraction_folder = "C:/Users/xxxxx/yyyyyy/pdf"
    list_path = glob.glob(path_extraction_folder+"/**/*.pdf",recursive=True)
 
    cpt = 0
    for path in list_path:
        path_base = "/".join(str(path).replace("\\","/").split("/")[:-1])
        new_path = os.path.join(path_base, str(cpt)+".pdf")
        os.rename(path, new_path)
        cpt +=1
 
    partenaires = [x.split("\\")[1] for x in list_path]
    type_doc = [x.split("\\")[2] for x in list_path]
    nom_fichier = [x.split("\\")[-1] for x in list_path]
 
    df_files = pd.DataFrame()
    df_files["partenaire"] = partenaires
    df_files["nom dossier"] = type_doc
    df_files["nom fichier"] = nom_fichier
    df_files.to_excel("./files-tree_.xlsx",index=False)
 
    df_files = pd.read_excel("./files-tree_.xlsx")
    df_files["partenaire"] = df_files["partenaire"].apply(lambda x : 
    str(x).rjust(14,'0'))
 
    #Here is my issue, I want to do a loop on the 'partenaire' of my df_file but idk 
    #how
 
    path = file_path
    pdf = pyPdf.PdfFileReader(open(path, "rb"))
    fp = file(path, 'rb')
    num_of_pages = pdf.getNumPages()
    extract = ""
    for i in range(num_of_pages):
      inside = [i]
      pagenos=set(inside)
      rsrcmgr = PDFResourceManager()
      retstr = StringIO()
      codec = 'utf-8'
      laparams = LAParams()
      device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
      interpreter = PDFPageInterpreter(rsrcmgr, device)
      password = ""
      maxpages = 0
      caching = True
      text = ""
      for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, 
    password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
        text = retstr.getvalue()
        text = text.decode("ascii","replace")
        if re.search(r"PLAN D'EPARGNE EN ACTIONS|PLAN D'EPARGNE EN 
    ACTIONS)",text.lower()):
            print text
            extract = extract + text + "\n" 
            continue

07/03/2022, 10h59
marco056

Je ne comprends rien au code ci-dessus et à aucun endroit je vois les conseils que j'ai donnés.
Bonne semaine.

Citation:

Envoyé par marco056

Je ne comprends rien au code ci-dessus et à aucun endroit je vois les conseils que j'ai donnés.
Bonne semaine.

J'ai apporté quelques commentaires a mon code. Pour avoir une vue globale voila l'arborescence de mon repertoire:
pdf/folder(id_partenaire)/folder_type de fichier(CTO ou PEA)/fichier_pdf (docstream.pdf)
Exp: Pdf/0012455420/CTO/juniore.pdf

Je sais pas si c'est plus explicite comme ca

Merci d'avance

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
 
    #Chemin ou sont stockés mes fichiers. Dans le repertoire pdf j'ai plusieurs dossiers avec des id_partenaire qui contienne chacun un pdf
    path_extraction_folder = "C:/Users/xxxxx/yyyyyy/pdf"
    list_path = glob.glob(path_extraction_folder+"/**/*.pdf",recursive=True)
 
    #je met en place un compteur qui va compter le nombre des fichiers pdf contu dans mon dossier pdf
    cpt = 0
    for path in list_path:
        path_base = "/".join(str(path).replace("\\","/").split("/")[:-1])
        new_path = os.path.join(path_base, str(cpt)+".pdf")
        os.rename(path, new_path)
        cpt +=1
 
    #Les dossiers contenus dans le dossier pdf est renonommé avec les id_partenaire, ensuite ces dossiers contiennent des fichiers (CTO ou PEA) qui eux contiennent les fichiers pdf à analyser
    partenaires = [x.split("\\")[1] for x in list_path]
    type_doc = [x.split("\\")[2] for x in list_path]
    nom_fichier = [x.split("\\")[-1] for x in list_path]
 
    df_files = pd.DataFrame()
    df_files["partenaire"] = partenaires
    df_files["nom dossier"] = type_doc
    df_files["nom fichier"] = nom_fichier
    df_files.to_excel("./files-tree_.xlsx",index=False)
 
    #Ici j'ai cree mon fichier Excel qui contient le id_partenaire, le type de dossier (PEA,CTO) et le nom du pdf en lui meme   
    df_files = pd.read_excel("./files-tree_.xlsx")
    df_files["partenaire"] = df_files["partenaire"].apply(lambda x : 
    str(x).rjust(14,'0'))
 
    #Mon probleme ici c'est de faire une boucle sur les fichiers pdf en ne lisant que la premiere page,
    #en recherchant 2 mots ("PLAN D'EPARGNE EN ACTIONS" ou "COMPTE TITRES ORDINAIRE")
    #Puis aller mettre un KO ou un OK dans mon fichier excel si les fichiers pdf contiennent ces mots 
 
    path = file_path
    pdf = pyPdf.PdfFileReader(open(path, "rb"))
    fp = file(path, 'rb')
    num_of_pages = pdf.getNumPages()
    extract = ""
    for i in range(num_of_pages):
      inside = [i]
      pagenos=set(inside)
      rsrcmgr = PDFResourceManager()
      retstr = StringIO()
      codec = 'utf-8'
      laparams = LAParams()
      device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
      interpreter = PDFPageInterpreter(rsrcmgr, device)
      password = ""
      maxpages = 0
      caching = True
      text = ""
      for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, 
    password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
        text = retstr.getvalue()
        text = text.decode("ascii","replace")
        if re.search(r"PLAN D'EPARGNE EN ACTIONS|COMPTE TITRES ORDINAIRE"),text.lower()):
            print text
            extract = extract + text + "\n" 
            continue
}

07/03/2022, 11h45
marco056

Non désolé, j'étais sur une question simple et pas tout un lot qui va avec.
Plusieurs remarques :
- la question portait sur de l'extraction de contenu pdf : j'ai répondu à la question avec [:3]. Apparemment, tu n'utilises pas ce que j'ai mis
- je vois dans le programme de la gestion de fichiers excel et je n'ai pas envi de m'y pencher
- pour ce qui est de lister les fichiers, c'est assez simple, il suffit de regarder les fils voisins par exemple
- je vois un print tout seul qui porte à croire que tu travailles en python2, ce n'est pas mon cas.

Citation:

Envoyé par marco056

Non désolé, j'étais sur une question simple et pas tout un lot qui va avec.
Plusieurs remarques :
- la question portait sur de l'extraction de contenu pdf : j'ai répondu à la question avec [:3]. Apparemment, tu n'utilises pas ce que j'ai mis
- je vois dans le programme de la gestion de fichiers excel et je n'ai pas envi de m'y pencher
- pour ce qui est de lister les fichiers, c'est assez simple, il suffit de regarder les fils voisins par exemple
- je vois un print tout seul qui porte à croire que tu travailles en python2, ce n'est pas mon cas.

J'ai pu modifier ma fonction de lecture pour boucler sur les 3 pages. Par contre au niveau de l'extraction ca ne me renvoi rien dans mon fichier excel.
Je sais pas si vous pouvez m'orienter sur ce qui cloche svp . Voila le code pour l'extraction dans un Excel:
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 treated_dir = [] treatment = [] problems = [] cpt = 0 for [parten, dir_, file] in df_doc_interest.values[cpt:]: try: print("Treating CPT = ", cpt) file_path = os.path.join(path_extraction_folder,parten,dir_, file) treat_path_dir = os.path.join("EAI-imgs 2", parten, dir_) if(treat_path_dir not in treated_dir): treated_dir.append(treat_path_dir) os.makedirs( treat_path_dir, 777 ) print(file_path) treatment.append(read_pdf_file(file_path, treat_path_dir, cpt)) except: print("problem ",cpt) problems.append(file) pass; cpt+=1 #C'est a partir d'ici qu'il ya un pb. Mon DataFrame est vide quand je le print je sais pas pourquoi ? if(cpt % 10 == 0): text_list = [] digital_list = [] file_id_list = [] for x in treatment: for xx in x[0]: text_list.append(xx) digital_list.append(x[1]) file_id_list.append(x[2]) save_file = pd.DataFrame() save_file["text"] = text_list save_file["is_digital"] = digital_list save_file["file_id"] = file_id_list save_file.to_excel("./backup/save_backup_"+str(cpt)+".xlsx",index=False)

08/03/2022, 19h06
marco056

Avant de l'envoyer dans un fichier excel, il faudrait peut-être voir s'il y a qqchose qui sort de la lecture, non ?

Voir 40 message(s) de cette discussion en une page