Parse PDF script perl

**darkterreur** · 26/12/2011, 13h22

Bonjour,

je reprend un script perl, ecris par un prédécesseur et j'essaye de comprendre le détail de son fonctionnement.

Le script parcourt un dossier et met les .pdf dans un tableau puis pour chaque élément du tableau on parse le PDF et on le renomme avec un numéro de référence trouvé dans le PDF.

Je vous copie la partie du code qui traite le pdf, j'aimerai savoir si c'est bien se que fait se code, comment agit la classe "PdfParser" travail t'elle avec un autre programme?
Car en amont un logiciel OCR travail, il prend les pdf fraichement scanner les analyse, et déplace et renomme les pdf aléatoirement. Seulement je ne voit aucune trace de sortie d'information des zones de texte trouvé par OCR.
Je pense donc que se programme ne sert a rien si la classe "PdfParser" retrouve la référence dans le pdf.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
 
use PdfParser;
 
#instancie parser PDF
my $parser = new PdfParser($pathPdfAParser);
 
#obtient tableau contenant les noms de PDF
my @tabFichiersPdf = $parser->getTableauFichiers;
 
foreach(@tabFichiersPdf)
{
my $fichier = $_;
my($filename, $directories, $suffix) = fileparse($fichier);
my $ref = $parser->extract($fichier);
if (!defined($ref)){
	(my $nref) = ( $filename =~ m/(\d{2}\s\d{1}\s\d{2}\s\d{2}\s\d{3}\s\d{2})/);
	$ref = $nref;
}
}

Le pdf est'il bien renomé avec la référence grace a ce code?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

(my $nref) = ( $filename =~ m/(\d{2}\s\d{1}\s\d{2}\s\d{2}\s\d{3}\s\d{2})/);

Merci d'avance pour vos informations

Parse PDF script perl

Langage Perl

Mode arborescent

Discussions similaires

Partager

Partager