iTextSharp - Lecture de PDF et Encodage

**Dan972** · 26/02/2015, 13h26

Bonjour à tous,

J'essai de récupérer les informations d'un PDF à l'aide de la méthode PDFReader.GetPageContent
Avec l'un de mes fichiers PDF, les accent sont mal géré.

Voici mon code

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
            StringBuilder sb = new StringBuilder();
            using (PdfReader pdfReader = new PdfReader(fileToDecompress.FullName))
            {
                 for (int pageNum = 1; pageNum <= pdfReader.NumberOfPages; pageNum++)
                {
                    byte[] pageContent = pdfReader.GetPageContent(pageNum); 
                    byte[] utf8 = Encoding.Convert(Encoding.Default, Encoding.UTF8, pageContent);
                    sb.Append(Encoding.UTF8.GetString(utf8));
                }
             }

Et voici ce que j'obtient quand il y a un accent ou un caractère spécial. Alors que j'aurais dû avoir (Payé) et (Crédité)
23.99 -19.15 Td
0 Tr
(Pay)Tj
0 Tr
/ttf1 9 Tf
(")Tj
0 Tr
/ttf0 9 Tf
(/cr)Tj
0 Tr
/ttf1 9 Tf
(")Tj
0 Tr
/ttf0 9 Tf
(dit)Tj
0 Tr
/ttf1 9 Tf
(")Tj

Je pense que c'est un problème d'encodage??
Quelqu'un connaît peut-être une autre méthode pour récupérer le texte avec le bon encodage, sachant que j'analyse aussi d'autres données (position du texte), donc je ne dois pas récupérer que le texte.

Toute proposition sera la bienvenue car là je désespère

iTextSharp - Lecture de PDF et Encodage

C#

Discussions similaires

Partager

Partager