problème couplage PDFBox / Lucene

**ngazet** · 16/05/2007, 18h46

Bonjour, j'utilises 2 API différentes mais qui peuvent être complémentaires: Lucene (gestion d'un index plein texte) et PDFBox (je vous laisse deviner...)
PDFBox permet de générer directement un document exploitable par Lucene (ce qui m'intéresse) à partir d'un fichier PDF (que j'ai (presque) en entrée).
En réalité, je n'ai pas le fichier PDF en lui-même, mais un byte[] correspondant aux données du fichier PDF.
PDFBox me fournit donc une méthode statique qui prend en argument un InputStream, un File ou une URL. Des 3 je ne peux utiliser que l'InputStream car je n'ai pas accès au fichier.
Voici mon appel:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
temporaryLuceneDoc = LucenePDFDocument.getDocument(
 ( InputStream )( new ByteArrayInputStream( fichierPhysique.getDonnees(  ) ) ) );

Voici l'erreur qui me tombe dessus:

Le message d'erreur est : org.apache.lucene.document.Field.Text(Ljava/lang/String;Ljava/io/Reader; )Lorg/apache/lucene/document/Field;
Le tracé de pile est :

java.lang.NoSuchMethodError: org.apache.lucene.document.Field.Text(Ljava/lang/String;Ljava/io/Reader; )Lorg/apache/lucene/document/Field;
at org.pdfbox.searchengine.lucene.LucenePDFDocument.addContent(LucenePDFDocument.java:290)
at org.pdfbox.searchengine.lucene.LucenePDFDocument.getDocument(LucenePDFDocument.java:148)

J'ai essayé avec ou sans le cast en InputStream

**shinchun** · 18/05/2007, 09h57

essaye d'utiliser ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
LucenePDFDocument.getDocument( new File("NOM DU FICHIER PDF");

C'est comme cela que j'utilise la class LucenePDFDocument.

**ngazet** · 18/05/2007, 10h41

non en fait j'ai trouvé d'où vient l'erreur: getDocument utilise une fonction Lucene... qui n'existe pas (ou plus), en l'occurence la classe Filed.Text (d'où l'erreur)
Et je ne peux pas utiliser getDocument(File xxx) car je n'ai pas accès au document proprement dit. J'ai accès au fichier par une base de données, qui contient les données du fichier PDF mais pas le fichier à proprement parlé. Je récupère ces données sous forme d'un tableau de byte, la seule manière d'utiliser getdocument est donc de passer par un ByteArrayInputStream.

**shinchun** · 18/05/2007, 10h52

ok

Je travaille encore avec la version 2.0 et là cela fonctionne.
Je vais essayer la version 2.1 peut-être que la nv. version peut m'aider avec mon prob.

**ngazet** · 18/05/2007, 10h57

je suis pourtant avec la version 2.0.0 de Lucene...
par contre je n'ai pas la dernière version de pdfbox (0.7.4) mais une version précédente (0.7.1)
laquelle utilise-tu?

**ngazet** · 18/05/2007, 11h06

j'ajoute que je suis restreint par l'utilisation de Maven, or ces derniers utilisent la version 0.7.1 (qui date quand même d'avril 2005

)
je vais faire une demande pour qu'ils passent à une version plus récente

**shinchun** · 18/05/2007, 11h33

j'utilise la version 0.7.4.

**ngazet** · 18/05/2007, 14h57

c'est bon j'ai résolu mon problème, mais j'ai du bidouiller mon repository maven local pour y mettre le version 0.7.3 de PDFBox ainsi qu'une des librairies utilisée par l'API (FontBox) afin que ça marche correctement.
Entretemps, j'ai aussi demandé à M. Litchfield pour qu'il intègre la version 0.7.3 à Maven

(la 0.7.1 date de presque 2 ans

)
en tout cas merci d'avoir répondu

problème couplage PDFBox / Lucene

Documents Java

Discussions similaires

Partager

Partager