Bonjour tous,
je voudrais récupérer le texte contenu dans un fichier pdf pour pouvoir le traiter.
Bonjour tous,
je voudrais récupérer le texte contenu dans un fichier pdf pour pouvoir le traiter.
Il existe des composants tiers pour cela, s'appuyant principalement sur la bibliothèque pdfium
pour petit budget il y a https://www.winsoft.sk/pdfium.htm
marrant, j'ai vu passer une question identique hier dans le tchat du coding bootcamp lors d'une session sur les chaînes de caractères, coincidence ?
récupérer le texte du PDF pour récupérer le texte du PDF c'est pas hyper compliqué, en revanche selon ce qu'on veut en faire c'est un peu plus hard car la position ou le contenu des informations autour peut être nécessaire à son interprétation surtout quand certains PDF embarquent des images dans lesquelles se trouve le texte. Acrobat Reader fait de l'OCR dessus.
Contactez Nabil74 il a créé une Gestion de Documents qui scanne les PDF avec les composants de Winsoft Pdfium VCL, pour ma part, je l'ai aidé en utilisant la version Winsoft Pdfium FMX
C'est vrai, j'oublie souvent ta bibliothèque Paul
pendant qu'on y est il y a aussi PyMuPDF une bibliothèque Python pour peu que l'on puisse utiliser/installer Python4Delphi
j'ai bricolé ça, mais son fonctionnement est aléatoire
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 ShellExecute(Handle, nil, PChar(fichier), nil, nil, SW_SHOWNORMAL); sleep(4500 ); C := 'A'; SimuClavierCtrl_(C ); sleep(2500 ); C := 'C'; SimuClavierCtrl_(C ); sleep(2500 ); keybd_event(VK_CONTROL,0,0,0); keybd_event(Ord('Q'),0,0,0); activecontrol:=fic1;fic1.lines.Clear; C := 'A'; SimuClavierCtrl_(C ); C := 'V'; SimuClavierCtrl_(C );
Partager