IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

WinDev Discussion :

indexation de document


Sujet :

WinDev

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Juin 2003
    Messages
    165
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2003
    Messages : 165
    Points : 68
    Points
    68
    Par défaut indexation de document
    Bonjour,
    J'ai developpé une application de gestion de base documentaire et on me demande d'ajouter un module qui permet de rechercher dans les documents en question. Ma base de document est composé de fichier doc, xls, pdf, txt ...
    Auriez vous une piste s'il vous plait ?
    Je vous en remerci par avance

  2. #2
    Membre émérite

    Profil pro
    Inscrit en
    Mars 2005
    Messages
    1 683
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Mars 2005
    Messages : 1 683
    Points : 2 579
    Points
    2 579
    Par défaut
    Pour chacun des types de document pour lesquels vous souhaitez une recherche "full text", vous devez, lors de l'ajout du document, extraire son texte et le stocker avec une rubrique à part (memo texte et idéalement avec recherche full text > Windev 14).

    L'extraction du texte devra se faire avec un outil approprié au type de fichier traité. Cherchez des applications en ligne de commande ou des librairies existantes pour cela.

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Juin 2003
    Messages
    165
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2003
    Messages : 165
    Points : 68
    Points
    68
    Par défaut
    Merci pour votre réponse mais j'ai peur qu'elle soit trop lourde a mettre en place car si je dois mettre en champs mémo les documents, ca ne va pas être gérable, nous prés de 20 000 documents de 1 a 200 page donc la base hyperfile va prendre des volumes énormes.
    J'ai vu en foullant sur le net qu'il y avait lucene mais avez vous déjà essayé ? ou un autre ?
    merci

  4. #4
    Membre éclairé
    Avatar de Edouard Kaiser
    Profil pro
    Inscrit en
    Février 2004
    Messages
    521
    Détails du profil
    Informations personnelles :
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2004
    Messages : 521
    Points : 756
    Points
    756
    Par défaut
    Je ne pense pas que ça devienne ingérable, c'est uniquement du texte pur qui va être stocké dans Hyper File, ça prend beaucoup moins de place que ce que prend un document PDF ou Word (il y a toutes les méta données en moins, les images etc...).

    Après en stockant uniquement le texte, il y a la recherche full text en version 14 qui va arriver pour effectuer des recherches dans le contenu des documents.

    Pour extraire le contenu d'un document tu dois avoir des outils extérieurs, quoi que il y a des fonctions HTMVersTexte par exemple (et même PDFVersTexte en 14 je crois).

    Sinon extraire le contenu d'un document Word 2007 ça doit pas etre bien dur, tout le texte est stocké dans les XML.

  5. #5
    Membre du Club
    Profil pro
    Inscrit en
    Juin 2003
    Messages
    165
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2003
    Messages : 165
    Points : 68
    Points
    68
    Par défaut
    N'y a t il vraiment pas d'autres solution que celle de windev14 qui me convient que a moitié car a chaque modification de document, il faut mettre a jour la rubrique dans le fichier hyperfile et j'ai peur que les fonctions de recherche ne soit pas aussi performante qu'un moteur prévu pour, c'est a dire des recherches de type AND OR .... comme google.
    Je reste convaincu que 20 000 documents word, excel, pdf (souvent du texte) de plusieurs pages chacun avec un accroissement de 1000 documents par mois soit gérable dans une base hyperfile sans diminuer les performances de l'application.
    J'ai fait des tests sur lucene : indexation de 1500 document = 2 min
    recherche : 1 seconde,
    mais je ne sais pas comment dialoguer entre lucene et windev
    merci

  6. #6
    Membre émérite

    Profil pro
    Inscrit en
    Mars 2005
    Messages
    1 683
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Mars 2005
    Messages : 1 683
    Points : 2 579
    Points
    2 579
    Par défaut
    Effectivement s'appuyer une solution solide et éprouvée est une bonne chose.

    Tu n'as plus qu'à utiliser l'API lucene portée en .net : http://incubator.apache.org/projects/lucene.net.html

    Tu devrais avoir l'assemblage compilé tout prêt sur le site et tu n'auras plus qu'à l'utiliser dans ton projet Windev.

    Si ça s'avère concluant, ce serait sympa de repasser ici faire un petit retour d'expérience des résultats que tu as obtenues, ça m'intéresse.

    Bon dev

  7. #7
    Membre du Club
    Profil pro
    Inscrit en
    Juin 2003
    Messages
    165
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2003
    Messages : 165
    Points : 68
    Points
    68
    Par défaut
    Merci beaucoup pour la réponse et le lien.
    Je fais faire ces tests dans les 2 semaines avenir, je ne manquerai pas de vous faire un retour
    Bonne journée

Discussions similaires

  1. [Swish-E] Indexation de documents pour CDROM
    Par GyLes dans le forum Autres langages
    Réponses: 8
    Dernier message: 19/07/2010, 11h26
  2. Indexation de document
    Par shaun_the_sheep dans le forum Windows
    Réponses: 6
    Dernier message: 26/01/2009, 21h38
  3. [DOM] Récup. d'index dans document.form.elements
    Par Heretic dans le forum Général JavaScript
    Réponses: 34
    Dernier message: 30/09/2008, 16h56
  4. indexation des documents
    Par melek dans le forum Windows
    Réponses: 1
    Dernier message: 04/08/2006, 14h05
  5. l'indexation des documents XML
    Par kaninama dans le forum XML/XSL et SOAP
    Réponses: 1
    Dernier message: 18/06/2006, 11h10

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo