Récupérer le texte d'un fichier pdf

**chekkal** · 24/08/2022, 10h56

Bonjour tous,

je voudrais récupérer le texte contenu dans un fichier pdf pour pouvoir le traiter.

**SergioMaster** · 24/08/2022, 14h24

Il existe des composants tiers pour cela, s'appuyant principalement sur la bibliothèque pdfium
pour petit budget il y a https://www.winsoft.sk/pdfium.htm

**pprem** · 24/08/2022, 14h31

marrant, j'ai vu passer une question identique hier dans le tchat du coding bootcamp lors d'une session sur les chaînes de caractères, coincidence ?

récupérer le texte du PDF pour récupérer le texte du PDF c'est pas hyper compliqué, en revanche selon ce qu'on veut en faire c'est un peu plus hard car la position ou le contenu des informations autour peut être nécessaire à son interprétation surtout quand certains PDF embarquent des images dans lesquelles se trouve le texte. Acrobat Reader fait de l'OCR dessus.

**SergioMaster** · 24/08/2022, 14h37

Contactez Nabil74 il a créé une Gestion de Documents qui scanne les PDF avec les composants de Winsoft Pdfium VCL, pour ma part, je l'ai aidé en utilisant la version Winsoft Pdfium FMX

**Paul TOTH** · 24/08/2022, 14h40

https://github.com/tothpaul/PDFiumReader

**SergioMaster** · 24/08/2022, 14h48

C'est vrai, j'oublie souvent ta bibliothèque Paul

pendant qu'on y est il y a aussi PyMuPDF une bibliothèque Python pour peu que l'on puisse utiliser/installer Python4Delphi

**chekkal** · 26/08/2022, 19h07

j'ai bricolé ça, mais son fonctionnement est aléatoire

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
 ShellExecute(Handle, nil, PChar(fichier), nil,  nil, SW_SHOWNORMAL);
            sleep(4500 );
             C := 'A';
             SimuClavierCtrl_(C );
           sleep(2500 );
             C := 'C';
             SimuClavierCtrl_(C );
            sleep(2500 );
 
             keybd_event(VK_CONTROL,0,0,0); 
             keybd_event(Ord('Q'),0,0,0); 
             activecontrol:=fic1;fic1.lines.Clear;
              C := 'A';
             SimuClavierCtrl_(C );
             C := 'V';
             SimuClavierCtrl_(C );

Récupérer le texte d'un fichier pdf

API, COM et SDKs Delphi

Discussions similaires

Partager

Partager