pdfparser refuse de fonctionner

Version imprimable

1 pièce(s) jointe(s)

Bonjour,

J'ai besoin d'extraire des données de fichiers pdf.

Je souhaite utiliser l'outil "PDFParser" proposé sur le site https://www.pdfparser.org/

Je rencontre un pb avec les exemples proposés sur le site.
Quel que soit le test effectué, j'ai toujours une erreur à l'appel de la fonction getText().

Le message reçu :
Code:

1 2 3 4 5 6 7 Fatal error: Uncaught Error: Call to undefined function Smalot\PdfParser\mb_check_encoding() in /home/roland/www-dev/vendor/smalot/pdfparser/src/Smalot/PdfParser/Font.php:371 Stack trace: #0 /home/roland/www-dev/vendor/smalot/pdfparser/src/Smalot/PdfParser/PDFObject.php(332): Smalot\PdfParser\Font->decodeText(Array) #1 /home/roland/www-dev/vendor/smalot/pdfparser/src/Smalot/PdfParser/Page.php(220): Smalot\PdfParser\PDFObject->getText(Object(Smalot\PdfParser\Page)) #2 /home/roland/www-dev/test.php(18): Smalot\PdfParser\Page->getText() #3 {main} thrown in /home/roland/www-dev/vendor/smalot/pdfparser/src/Smalot/PdfParser/Font.php on line 371
Mon script de test :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 <?php ini_set('display_errors','stdout'); error_reporting(E_ALL); require __DIR__ . '/vendor/autoload.php'; $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser->parseFile('monfichier.pdf'); // Retrieve all pages from the pdf file. $pages = $pdf->getPages(); // Loop over each page to extract text. foreach ($pages as $page) { echo $page->getText(); }
Je suis sur un PC Ubuntu 17.10, lamp local dont PHP 7.1.15.

Pour info, le composer.json associé :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 { "repositories": [ { "type": "composer", "url": "https://www.setasign.com/downloads/" } ], "require": { "smalot/pdfparser": "*", "setasign/fpdi-fpdf": "^2.0", "setasign/fpdi_pdf-parser": "2.0.3" } }
Le résultat est le même si j'installe "smalot/pdfparser" en dernière ligne du require.
Les autres scripts appelés sont nécessaires au reste du programme.

Vous trouverez attaché le fichier pdf que je souhaite explorer.
Ce fichier est parfaitement ouvert et lu par la page de démo du site : https://www.pdfparser.org/demo

Auriez-vous une idée, une piste à m'indiquer ?

Merci par avance de votre réponse et de votre attention.
Roland

23/03/2018, 09h59
sabotage

Active l'extension mbstring dans ton php.ini
23/03/2018, 11h17
RolandGautier

pdfparser

Citation:

Envoyé par sabotage

Active l'extension mbstring dans ton php.ini

Bonjour Sabotage,
et merci de ton retour.

J'ai décommenter "extension=php_mbstring.dll" dans /etc/php/7.1/apache2/php.ini

Mais le résultat reste le même.

Quel autre point pourrais-je chercher ?
23/03/2018, 11h56
mathieu

avez-vous redémarré Apache ?
23/03/2018, 14h44
RolandGautier

Citation:

Envoyé par mathieu

avez-vous redémarré Apache ?

Bonjour Mathieu,

non, j'ai redémarré le pc entier :lol:

Mais vous avez raison, j'aurai pu oublier ...

Une idée sur la cause ?
23/03/2018, 18h00
mathieu
faites un script de test avec la commande phpinfo
Code:

1 2 <?php phpinfo();
au début à la ligne "Loaded Configuration File" vous pouvez vérifier que c'est bien ce fichier php.ini qui est concerné.
23/03/2018, 21h18
RolandGautier
Citation:
Envoyé par mathieu

faites un script de test avec la commande phpinfo

Code:

1 2 <?php phpinfo();

au début à la ligne "Loaded Configuration File" vous pouvez vérifier que c'est bien ce fichier php.ini qui est concerné.
et le php info répondit :
Loaded Configuration File /etc/php/7.1/apache2/php.ini

Donc, c'est bien le bon.

Il n'y a que deux php.ini dans mon pc, un dans /etc/php/7.1/apache2, et l'autre dans /etc/php/7.1/cli.
Le second, réservé à l'emploi de php en ligne de commande, ne peut être concerné.

Quoi d'autre pourrais-je vérifier ?
23/03/2018, 21h44
RolandGautier

J'ai trouvé :

Autoriser l'extension mbstring.dll dans php.ini est une très bonne idée,

Mais encore faut-il auparavant l'installer ...

Code:

sudo apt-get install php-mbstring

Là, ça marche tout de suite nettement mieux !

Merci à tous pour votre indulgence et votre attention,

et un doux we à tous.

Roland