IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

API standards et tierces Java Discussion :

Solr & serveur de fichier


Sujet :

API standards et tierces Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Femme Profil pro
    Inscrit en
    Juin 2011
    Messages
    50
    Détails du profil
    Informations personnelles :
    Sexe : Femme

    Informations forums :
    Inscription : Juin 2011
    Messages : 50
    Par défaut Solr & serveur de fichier
    Bonjour à tous,

    après avoir cherché un peu partout des infos, je viens ici en espérant trouver la réponse à mes questions.

    Je dois mettre en place le moteur de recherche à facettes Solr d'Apache sur un serveur de fichier.
    Ce serveur de fichier contient plus de 293.000 fichiers. Le but de la mise en place de Solr est donc de faciliter la vie des équipes devant effectuer des recherches sur ce serveur.

    J'ai pour l'instant installer Solr en local sur mon poste et réaliser un script (en Vbscript) qui me permet de récupérer le nom et l'adresse des fichiers contenus sur le serveur et qui générer un fichier xml que j'envoie à solr pour l'indexation. J'arrive à effectuer mes recherches sans soucis.

    La prochaine étape est de réussir à mettre en place une recherche full-text parmi tous les fichiers contenus sur le serveur (doc, pdf, ppt...) et c'est là que ça se corse

    On m'a dit qu'il fallait indexer le contenu des fichiers pour réaliser la recherche full text (via un copier coller de ce qui se trouve dans les fichiers), est-ce vrai ?
    - Si oui, comment puis-je automatiser la lecture du contenu du fichier et copier/coller ce contenu dans mon fichier xml pour l'indexation ?
    - Si le contenu de chaque fichier est présent dans le fichier xml, ce ne sera pas trop lourd pour solr ?

    Sinon, existe-il une autre solution pour réaliser la recherche full-text avec Solr (voire au pire, avec un autre outil) ?

    Je suis vraiment perdue dans la mise en place de cette recherche full-text

    Merci d'avance !

  2. #2
    Membre très actif
    Inscrit en
    Mars 2008
    Messages
    283
    Détails du profil
    Informations forums :
    Inscription : Mars 2008
    Messages : 283
    Par défaut
    Bonjour,

    Ca tombe bien, solr est le sujet de mon stage.

    Sur ce que j'ai pu voir sur solr :

    1. Tu peux demander à Solr d'utiliser une base de données sur le même principe que JDBC, tu n'as qu'à préciser le driver, l'url et éléments de connexion. De cette façon, même si tu as peur des capacités de solr, tu peux te fier à une base de données dont on sais qu'elle fonctionne.
    2. Tu peux soumettre fichier par fichier tes contenus (par des appels successifs de commande add) et faire le commit à la fin. Même si ça prends plus de temps que sur une base de données classiques, le but de solr est d'optimiser la recherche, pas l'ajout de données.

    Je n'ai pas encore eu d'échantillon assez conséquent pour dire qu'il y a ou pas de limite à solr donc tu le verra surement toi même par expérience.

  3. #3
    Membre averti
    Femme Profil pro
    Inscrit en
    Juin 2011
    Messages
    50
    Détails du profil
    Informations personnelles :
    Sexe : Femme

    Informations forums :
    Inscription : Juin 2011
    Messages : 50
    Par défaut
    Bonjour Grimly,

    Pour l'instant l'idée d'utiliser une base de données pour Solr est écartée. Je me consacre donc à la "construction" de mon fichier xml.

    Afin de réaliser la recherche full-text j'ai donc décidé d'indexer le contenu des fichiers également.
    Mon script récupére donc le contenu des fichiers .txt et l'indexe sans soucis -> Les recherches full text se font parfaitement.

    Pour les fichiers word, j'arrive à récupérer le contenu mais je récupére par la même occasion, les caractères non imprimables que Solr ne veut pas. Il les rejette quand je lui donne mon fichier pour indexation. J'essaie donc de mettre en place un script qui lirait mon fichier xml et qui enleverait ces caractères. Normalement, si j'arrive à faire ça, il me sera donc possible de faire des recherches full-text sur des fichiers word.

    Il ne restera plus qu'à gérer les ppt et excel... et ce ne sera pas facile

  4. #4
    Membre émérite Avatar de NicoL__
    Homme Profil pro
    Architecte
    Inscrit en
    Janvier 2011
    Messages
    399
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Architecte

    Informations forums :
    Inscription : Janvier 2011
    Messages : 399
    Par défaut
    Bonjour,

    Utiliser un base de donnée avec Solr n'a pas vraiment d'intêret dans ton cas, Solr construit comme un grand son index.
    La difficulté pour toi ce sont les facette car d'un côté il te faut un xml structuré pour les créer et de l'autre il te faut indexer le contenu des fichier.
    Solr à la fonctionnalité : Rich document processing (Word, PDF, HTML) pour faire cela ça utilise http://tika.apache.org/

    Je pense qu'il est possible de créer un plugin permettant d'indexer les fichier combinant les deux fonctionnalités.

  5. #5
    Membre averti
    Femme Profil pro
    Inscrit en
    Juin 2011
    Messages
    50
    Détails du profil
    Informations personnelles :
    Sexe : Femme

    Informations forums :
    Inscription : Juin 2011
    Messages : 50
    Par défaut
    Le projet a finalement changé, pas de recherche full text.


    A fermer

Discussions similaires

  1. Serveur de fichiers avec Web Services
    Par romaintaz dans le forum Services Web
    Réponses: 4
    Dernier message: 20/03/2006, 14h52
  2. [Reseau] Serveur de fichier, domaine interne, firewall, back
    Par nico33307 dans le forum Développement
    Réponses: 2
    Dernier message: 01/09/2005, 15h38
  3. Serveur de fichier Samba - problème accès Win XP
    Par rohstev dans le forum Réseau
    Réponses: 2
    Dernier message: 10/06/2005, 08h10
  4. Mise en place d'un serveur de fichier Samba/RedHat
    Par shaun_the_sheep dans le forum Réseau
    Réponses: 2
    Dernier message: 11/01/2005, 08h22
  5. Serveur de fichier Linux
    Par MrEddy dans le forum Réseau
    Réponses: 3
    Dernier message: 07/04/2004, 12h17

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo