IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Documents Java Discussion :

lire un texte écrit en Unicode d'un fichier PDF


Sujet :

Documents Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé Avatar de kha_yassine
    Inscrit en
    Juin 2007
    Messages
    126
    Détails du profil
    Informations forums :
    Inscription : Juin 2007
    Messages : 126
    Par défaut lire un texte écrit en Unicode depuis un fichier PDF
    salut tout le monde,

    j'ais pu créer un fichier PDF avec comme contenu , un texte en Arabe , en utilisant IText

    Et j'ais beaucoup essayer de lire ce contenu mais sans résultat

    Si quelqu'un pourait m'aider sur ce truc

    Et merci d'avance

  2. #2
    Membre confirmé Avatar de kha_yassine
    Inscrit en
    Juin 2007
    Messages
    126
    Détails du profil
    Informations forums :
    Inscription : Juin 2007
    Messages : 126
    Par défaut
    Voici ou j'en suis :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    PdfReader r = new PdfReader(new FileInputStream("C:/test.pdf"));
    byte [] pc = r.getPageContent(1);
    PRTokeniser tokenizer = new PRTokeniser(pc);
                        while (tokenizer.nextToken()) {
                            if (tokenizer.getTokenType() == PRTokeniser.TK_STRING) {
                                text.append(tokenizer.getStringValue());
     
                            }
                        }
    Ca marche trés bien pour un texte écrit en francais ou en anglais... (caractères sur 8 bits : UTF-8)

    Mais j'ais pas réussi à convertir ce texte en UTF-16 ( là ou il y a l'arabe )
    soit convertir le tableau des "byte" en un tableau de "char" en rassemblant chaque deux "byte" dans un "char"...

    Si quelqu'un a une idée

  3. #3
    Membre confirmé Avatar de kha_yassine
    Inscrit en
    Juin 2007
    Messages
    126
    Détails du profil
    Informations forums :
    Inscription : Juin 2007
    Messages : 126
    Par défaut
    je crois savoir se qui me faut,

    comme j'ai dis : les lignes de code sitées me permettent de lire un fichier PDF qui a comme contenu un texte ecrit en francais ou anglais...==> écrit de gauche à droite

    Mais le fichier que j'aimrais lire est en arabe ==> écrit de droite à gauche

    Est se qu'il y a des paramètres pour le PdfReader pour que je puisse récupérer le texte de droite à gauche ?!!

  4. #4
    Membre éclairé Avatar de biozaxx
    Profil pro
    Inscrit en
    Août 2004
    Messages
    403
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2004
    Messages : 403
    Par défaut
    salut,

    je ne sais pas si on peut lire de droite a gauche par contre il y a moyen de d'ecrire de droite a gauche.

    voici le code d'un exemple en esperant que cela puisse t'aider

    @+

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
     
    import java.awt.Color;
    import java.io.FileOutputStream;
     
    import com.lowagie.text.Chunk;
    import com.lowagie.text.Document;
    import com.lowagie.text.Element;
    import com.lowagie.text.Font;
    import com.lowagie.text.PageSize;
    import com.lowagie.text.Phrase;
    import com.lowagie.text.pdf.BaseFont;
    import com.lowagie.text.pdf.ColumnText;
    import com.lowagie.text.pdf.PdfContentByte;
    import com.lowagie.text.pdf.PdfPCell;
    import com.lowagie.text.pdf.PdfPTable;
    import com.lowagie.text.pdf.PdfWriter;
     
    /**
     * Writing RTL text such as Arabic or Hebrew.
     */
    public class RightToLeft {
     
        /**
         * Writing RTL text such as Arabic or Hebrew.
         * @param args no arguments needed
         */
        public static void main(String[] args) {
            try {
            	// step 1
                Document document = new Document(PageSize.A4, 50, 50, 50, 50);
                // step 2
                PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("righttoleft.pdf"));
                // step 3
                document.open();
                // step 4
                PdfContentByte cb = writer.getDirectContent();
                BaseFont bf = BaseFont.createFont("c:\\windows\\fonts\\times.ttf", BaseFont.IDENTITY_H, true);
                Font f2 = new Font(bf, 24, Font.NORMAL, Color.BLUE);
                float llx = 100;
                float lly = 100;
                float urx = 500;
                float ury = 800;
                ColumnText ct = new ColumnText(cb);
                ct.setSimpleColumn(llx, lly, urx, ury, 24, Element.ALIGN_LEFT);
                ct.setSpaceCharRatio(PdfWriter.NO_SPACE_CHAR_RATIO);
                ct.setLeading(0, 1);
                ct.setRunDirection(PdfWriter.RUN_DIRECTION_RTL);
                ct.setAlignment(Element.ALIGN_CENTER);
                ct.addText(new Chunk(ar1, new Font(bf, 16)));
                ct.addText(new Chunk(ar2, new Font(bf, 16, Font.NORMAL, Color.red)));
                ct.go();
                ct.setAlignment(Element.ALIGN_JUSTIFIED);
                ct.addText(new Chunk(ar3, new Font(bf, 12)));
                ct.go();
                ct.setAlignment(Element.ALIGN_CENTER);
                ct.addText(new Chunk(ar4, new Font(bf, 14)));
                ct.go();
     
                ct.setSpaceCharRatio(PdfWriter.SPACE_CHAR_RATIO_DEFAULT);
                ct.setAlignment(Element.ALIGN_CENTER);
                ct.addText(new Chunk("\n\n\n", new Font(bf, 16)));
                ct.addText(new Chunk(he1, new Font(bf, 16)));
                ct.addText(new Chunk(he2, new Font(bf, 16, Font.NORMAL, Color.red)));
                ct.go();
                ct.setAlignment(Element.ALIGN_JUSTIFIED);
                ct.addText(new Chunk(he3, new Font(bf, 12)));
                ct.go();
                ct.setAlignment(Element.ALIGN_CENTER);
                ct.addText(new Chunk(he4, new Font(bf, 14)));
                ct.go();
     
                document.newPage();
                String atext = "\u062a\u0635\u0628\u062d ";
                PdfPTable table = new PdfPTable(5);
                table.setWidthPercentage(100);
                table.setRunDirection(PdfWriter.RUN_DIRECTION_NO_BIDI);
                for (int k = 0; k < 5; ++k) {
                    PdfPCell cell = new PdfPCell(new Phrase(10, atext + k, f2));
                    if (k == 2) {
                        cell.setColspan(2);
                        ++k;
                    }
                    table.addCell(cell);
                }
                table.setRunDirection(PdfWriter.RUN_DIRECTION_LTR);
                for (int k = 0; k < 5; ++k) {
                    PdfPCell cell = new PdfPCell(new Phrase(10, atext + k, f2));
                    if (k == 2) {
                        cell.setColspan(2);
                        ++k;
                    }
                    table.addCell(cell);
                }
                table.setRunDirection(PdfWriter.RUN_DIRECTION_RTL);
                for (int k = 0; k < 5; ++k) {
                    PdfPCell cell = new PdfPCell(new Phrase(10, atext + k, f2));
                    if (k == 2) {
                        cell.setColspan(2);
                        ++k;
                    }
                    table.addCell(cell);
                }
                document.add(table);
                // step 5
                document.close();
            }
            catch (Exception e) {
                e.printStackTrace();
            }
        }
     
        /** arabic text */
        public static String ar1 = "\u0623\u0648\u0631\u0648\u0628\u0627, \u0628\u0631\u0645\u062c\u064a\u0627\u062a \u0627\u0644\u062d\u0627\u0633\u0648\u0628 + \u0627\u0646\u062a\u0631\u0646\u064a\u062a :\n\n";
        /** arabic text */
        public static String ar2 = "\u062a\u0635\u0628\u062d \u0639\u0627\u0644\u0645\u064a\u0627 \u0645\u0639 \u064a\u0648\u0646\u064a\u0643\u0648\u062f\n\n";
        /** arabic text */
        public static String ar3 = "\u062a\u0633\u062c\u0651\u0644 \u0627\u0644\u0622\u0646 \u0644\u062d\u0636\u0648\u0631 \u0627\u0644\u0645\u0624\u062a\u0645\u0631 \u0627\u0644\u062f\u0648\u0644\u064a " +
           "\u0627\u0644\u0639\u0627\u0634\u0631 \u0644\u064a\u0648\u0646\u064a\u0643\u0648\u062f, \u0627\u0644\u0630\u064a \u0633\u064a\u0639\u0642\u062f \u0641\u064a 10-12 \u0622\u0630\u0627\u0631 1997 " +
           "\u0628\u0645\u062f\u064a\u0646\u0629 \u0645\u0627\u064a\u0646\u062a\u0633, \u0623\u0644\u0645\u0627\u0646\u064a\u0627. \u0648\u0633\u064a\u062c\u0645\u0639 \u0627\u0644\u0645\u0624\u062a\u0645\u0631 " +
           "\u0628\u064a\u0646 \u062e\u0628\u0631\u0627\u0621 \u0645\u0646  \u0643\u0627\u0641\u0629 \u0642\u0637\u0627\u0639\u0627\u062a \u0627\u0644\u0635\u0646\u0627\u0639\u0629 \u0639\u0644\u0649 " +
           "\u0627\u0644\u0634\u0628\u0643\u0629 \u0627\u0644\u0639\u0627\u0644\u0645\u064a\u0629 \u0627\u0646\u062a\u0631\u0646\u064a\u062a \u0648\u064a\u0648\u0646\u064a\u0643\u0648\u062f, \u062d\u064a\u062b " +
           "\u0633\u062a\u062a\u0645, \u0639\u0644\u0649 \u0627\u0644\u0635\u0639\u064a\u062f\u064a\u0646 \u0627\u0644\u062f\u0648\u0644\u064a \u0648\u0627\u0644\u0645\u062d\u0644\u064a \u0639\u0644\u0649 " +
           "\u062d\u062f \u0633\u0648\u0627\u0621 \u0645\u0646\u0627\u0642\u0634\u0629 \u0633\u0628\u0644 \u0627\u0633\u062a\u062e\u062f\u0627\u0645 \u064a\u0648\u0646\u0643\u0648\u062f  \u0641\u064a " +
           "\u0627\u0644\u0646\u0638\u0645 \u0627\u0644\u0642\u0627\u0626\u0645\u0629 \u0648\u0641\u064a\u0645\u0627 \u064a\u062e\u0635 \u0627\u0644\u062a\u0637\u0628\u064a\u0642\u0627\u062a " +
           "\u0627\u0644\u062d\u0627\u0633\u0648\u0628\u064a\u0629, \u0627\u0644\u062e\u0637\u0648\u0637, \u062a\u0635\u0645\u064a\u0645 \u0627\u0644\u0646\u0635\u0648\u0635  \u0648\u0627\u0644\u062d\u0648\u0633\u0628\u0629 " +
           "\u0645\u062a\u0639\u062f\u062f\u0629 \u0627\u0644\u0644\u063a\u0627\u062a.\n\n";
        /** arabic text */
        public static String ar4 = "\u0639\u0646\u062f\u0645\u0627 \u064a\u0631\u064a\u062f \u0627\u0644\u0639\u0627\u0644\u0645 \u0623\u0646 \u064a\u062a\u0643\u0644\u0651\u0645, \u0641\u0647\u0648 \u064a\u062a\u062d\u062f\u0651\u062b \u0628\u0644\u063a\u0629 \u064a\u0648\u0646\u064a\u0643\u0648\u062f\n\n";
        /** hebrew text */
        public static String he1 = "\u05d0\u05d9\u05e8\u05d5\u05e4\u05d4, \u05ea\u05d5\u05db\u05e0\u05d4 \u05d5\u05d4\u05d0\u05d9\u05e0\u05d8\u05e8\u05e0\u05d8:\n\n";
        /** hebrew text */
        public static String he2 = "Unicode \u05d9\u05d5\u05e6\u05d0 \u05dc\u05e9\u05d5\u05e7 \u05d4\u05e2\u05d5\u05dc\u05de\u05d9\n\n";
        /** hebrew text */
        public static String he3 = "\u05d4\u05d9\u05e8\u05e9\u05de\u05d5 \u05db\u05e2\u05ea \u05dc\u05db\u05e0\u05e1 Unicode \u05d4\u05d1\u05d9\u05e0\u05dc\u05d0\u05d5\u05de\u05d9 \u05d4\u05e2\u05e9\u05d9\u05e8\u05d9, \u05e9\u05d9\u05d9\u05e2\u05e8\u05da \u05d1\u05d9\u05df \u05d4\u05ea\u05d0\u05e8\u05d9\u05db\u05d9\u05dd " +
            "12\u05be10 \u05d1\u05de\u05e8\u05e5 1997, \u05d1\u05de\u05d9\u05d9\u05e0\u05e5 \u05e9\u05d1\u05d2\u05e8\u05de\u05e0\u05d9\u05d4. \u05d1\u05db\u05e0\u05e1 \u05d9\u05e9\u05ea\u05ea\u05e4\u05d5 \u05de\u05d5\u05de\u05d7\u05d9\u05dd \u05de\u05db\u05dc \u05e2\u05e0\u05e4\u05d9 \u05d4\u05ea\u05e2\u05e9\u05d9\u05d9\u05d4 " +
            "\u05d1\u05e0\u05d5\u05e9\u05d0 \u05d4\u05d0\u05d9\u05e0\u05d8\u05e8\u05e0\u05d8 \u05d4\u05e2\u05d5\u05dc\u05de\u05d9 \u05d5\u05d4\u05beUnicode, \u05d1\u05d4\u05ea\u05d0\u05de\u05d4 \u05dc\u05e9\u05d5\u05e7 \u05d4\u05d1\u05d9\u05e0\u05dc\u05d0\u05d5\u05de\u05d9 \u05d5\u05d4\u05de\u05e7\u05d5\u05de\u05d9, " +
            "\u05d1\u05d9\u05d9\u05e9\u05d5\u05dd Unicode \u05d1\u05de\u05e2\u05e8\u05db\u05d5\u05ea \u05d4\u05e4\u05e2\u05dc\u05d4 \u05d5\u05d1\u05d9\u05d9\u05e9\u05d5\u05de\u05d9\u05dd, \u05d1\u05d2\u05d5\u05e4\u05e0\u05d9\u05dd, \u05d1\u05e4\u05e8\u05d9\u05e1\u05ea \u05d8\u05e7\u05e1\u05d8 \u05d5\u05d1\u05de\u05d7\u05e9\u05d5\u05d1 " +
            "\u05e8\u05d1\u05be\u05dc\u05e9\u05d5\u05e0\u05d9.\n\n";
        /** hebrew text */
        public static String he4 = "\u05db\u05d0\u05e9\u05e8 \u05d4\u05e2\u05d5\u05dc\u05dd \u05e8\u05d5\u05e6\u05d4 \u05dc\u05d3\u05d1\u05e8, \u05d4\u05d5\u05d0 \u05de\u05d3\u05d1\u05e8 \u05d1\u05beUnicode\n\n";
    }

  5. #5
    Membre confirmé Avatar de kha_yassine
    Inscrit en
    Juin 2007
    Messages
    126
    Détails du profil
    Informations forums :
    Inscription : Juin 2007
    Messages : 126
    Par défaut
    Oui merci bien,
    je sais comment écrire de droite à gauche,

    Se qui me faut : de récupérer des caractères codés sur 16 bits, qui sont à l'avance écrits de droite à gauche,

    Je ne sais pas si le faite seulement de lire le fichier de droite à gauche qui va me résoudre le problème car lorsque j'ais fait :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    .....
    byte[] streamBytes = PdfReader.getStreamBytes(stream);
    .....
    pour récupérer tout le contenu du PDF sous forme d'un tableau de "byte";

    Je l'ais ensuite renverser (le premier element est à la fin...)
    Mais sans effet : je ne récupère toujours pas le contenu , la chaine en arabe .

  6. #6
    Membre confirmé
    Profil pro
    Étudiant
    Inscrit en
    Février 2005
    Messages
    263
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Février 2005
    Messages : 263
    Par défaut
    ce que tu peux faire, c'est à chaque fois que tu rencontres un caractère de ta chaine, tu la met dans une pile. Et à la fin de ta ligne, tu vides ta piles ainsi, le premier caractère était de dernier de gauche à droite et donc le premier de droite à gauche

Discussions similaires

  1. Lire un programme écrit sous MATLAB
    Par tipi09 dans le forum Octave
    Réponses: 2
    Dernier message: 06/10/2006, 10h43
  2. Quelle structure Perl pour lire file texte formaté
    Par calima dans le forum Langage
    Réponses: 2
    Dernier message: 26/07/2006, 14h51
  3. convertir un text en format unicode
    Par mjava dans le forum Général Java
    Réponses: 4
    Dernier message: 18/07/2006, 16h51
  4. [FLASH 8] Problème pour lire un texte
    Par Halobox dans le forum Flash
    Réponses: 2
    Dernier message: 11/01/2006, 21h59
  5. Lire un texte dans une ressource en dll
    Par fred78 dans le forum Langage
    Réponses: 2
    Dernier message: 03/11/2005, 18h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo