IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

EDI, CMS, Outils, Scripts et API PHP Discussion :

Problème moteur de recherche htdig


Sujet :

EDI, CMS, Outils, Scripts et API PHP

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 38
    Points : 12
    Points
    12
    Par défaut Problème moteur de recherche htdig
    Bonjours,
    mon prédécesseur a installé le moteur de recherche htdig sur les sites.
    Celui-ci est parti et le serveur a planté. J'ai dût transférer tous mes sites sur un autre serveur web.

    Mais maintenant mon moteur de recherche fonctionne mal. Il trouve bien les mots qui étaient sur le site, mais lorsque je créé une nouvelle page sur mon site avec de nouveaux mots et que je lance la mise à jour (rundig), il ne trouve pas les nouvelles pages créées.
    Rundig est pourtant bien exécuté car si j'ajoute un mot sur une page qui existait depuis longtemps, il est mis à jour.

    Est-ce que vous auriez une petite idée de la source du problème.

    PS: vous allez surement me demander plus de précisions sur htdig mais pour l'instant je ne le maitrise pas du tout (j'y travaille).

    Merci d'avance

  2. #2
    Membre du Club
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    42
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 42
    Points : 47
    Points
    47
    Par défaut
    je ne pense pas que ça ait un rapport avec php

    je crois que htdig utilise une liste de fichier à parcourir pour indexer (mais pas sur)
    Sinon faire un lien vers ce nouveau fichier à partir d'une page déjà indexée.

  3. #3
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 38
    Points : 12
    Points
    12
    Par défaut
    Oui je crois que le programme part de la 1ère page du site puis va vers les autres graces aux liens donnés sur la prmière page.

    Dans mon cas, j'ai bien ma première page qui a un lien vers la nouvelle page, mais cette page n'est pourtant pas mise à jour

  4. #4
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 38
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    je reviens à la charge pour mon problème qui n'est toujours pas résolu.

    Il est a noter que mes sites sont faits de fichiers XML contenant les données.
    J'ai testé l'indexation sur un site basique, c'est à dire ne contenant que des fichiers HTML et ça marche. Donc le problème vient peut-être du format XML.

    J'ai recherché sur Internet et on me dit qu'il faut que j'utilise un parseur externe, "UNZIP".
    On me dit aussi qu'il faut que je dise à mon htdig de traiter ces formats avec le code :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
     
    $type = strtolower(substr($_SERVER["SCRIPT_URI"], -3));
     
            $tmp_filename = tempnam("/tmp", "FOO");
            local_copy($tmp_filename);
     
            switch($type) {
                    case "doc":
                            // invocation de catdoc
                            passthru("/usr/bin/catdoc ".$tmp_filename);
     
                            break;
                    case "pdf":
                            // invocation de pdftotext
                            passthru("/usr/bin/pdftotext -htmlmeta ".$tmp_filename." - ");
     
                            break;
     
                    case "sxc":
                    case "sxw":
                            // invocation de unzip
                            passthru("/usr/bin/unzip -p ".$tmp_filename." content.xml ");
                            break;
     
                    case "xls":
                            // invocation de xls2csv
                            passthru("/usr/bin/xls2csv ".$tmp_filename);
                            break;
     
                    default:
                            // reporter dans un log les fichiers non indexés
                            echo "<html><body>Format de fichier non supporté.</body></html>";
                            break;
     
            }
    Il faut surement que je rajoute case 'xml' avant mes case "sxc" et case "sxw". Mais je ne sais pas dans quel fichier faire ça.

    Bref pas mal de questions...

  5. #5
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 38
    Points : 12
    Points
    12
    Par défaut
    Rectification,
    Le parseur à utiliser serait à insérer dans mon htdig.conf, et serait de la forme :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    external_parsers:  gunzip->user-defined /usr/local/bin/ungzipper
    Je crois que c'est ungzipper mais je ne suis pas certain car je n'est trouvé aucun site le disant clairement.

  6. #6
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 38
    Points : 12
    Points
    12
    Par défaut
    Bonjour, je n'est aucune réponse à mon problème. Est-ce que vous pourriez me dire si vous ne répondez pas parce que c'est un sujet que vous ne maitrisez pas du tout, que vous maitrisez mais que là, ça reste un mystère...

    Autrement, je continue ma recherche dans mon coin. Je pense donc de plus en plus que le problème pourrait se résoudre par l'utilisation d'un parseur externe. Je pense que pour xml, ça serait :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    external_parsers:  application/star-office->text/html
    J'ai essayé de le mettre dans htdig.conf et dans htdig.mon_site.com.conf mais j'ai pas l'impression que ça change quoi que ce soit. Savez vous s'il faut le recompiler pour qu'il le prenne en compte ?

    Merci d'avance.
    Adrien

  7. #7
    Expert éminent Avatar de Mr N.
    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    5 418
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 5 418
    Points : 6 449
    Points
    6 449
    Par défaut
    Désolé d'intervenir dans ton monologue, mais pour répondre à la question, je ne maitrise pas htdig et je pense ne pas être le seul, d'où le peux de réponses.
    As-tu adressé ton problème ici : http://www.htdig.org/ ?

  8. #8
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 38
    Points : 12
    Points
    12
    Par défaut
    Je t'en prie , mon monologue est totalement ouvert vers l'extérieur

    Je n'est pas posté de questions sur ce site mais je travaille à fond sur celui-ci. Même si mon anglais est plus que juste, je vais peut être me lancer.

    PS: merci quand même de m'avoir répondu, je commençais vraiment à me sentir seul

  9. #9
    Membre à l'essai
    Profil pro
    Inscrit en
    Février 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 38
    Points : 12
    Points
    12
    Par défaut
    Bon j'ai trouvé pourquoi htdig n'arrivait pas à trouver les pages de mon sites. Sur ma page d'index, les liens vers les autres pages sont de la forme :
    www.monsite.fr/index.php?page=rubrique1/accueil.php
    Et comme ça, il n'arrive pas à la trouver. il aurrait fallu qu'il soit de la forme :
    www.monsite.fr/rubrique1/accueil.php


    J'ai résolu le problème en trichant. J'ai fais un script qui modifie mon conf et qui indique toute les pages de mon site à la variable indiquant la première page de mon site où effectuer la recherche.

    C'est surement moins clean mais ça à le mérite de marcher

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Problème moteur de recherche de ce forum
    Par cmail dans le forum IGN API Géoportail
    Réponses: 2
    Dernier message: 13/02/2014, 11h38
  2. [MySQL] Problème moteur de recherche php avec base donnée Mysql
    Par hotwheals dans le forum PHP & Base de données
    Réponses: 19
    Dernier message: 28/06/2011, 09h06
  3. Probléme moteur de recherche WSS3
    Par youbel dans le forum SharePoint
    Réponses: 4
    Dernier message: 27/05/2009, 09h06
  4. Réponses: 0
    Dernier message: 23/10/2007, 17h36
  5. [MySQL] Problème moteur de recherche
    Par vincedjs dans le forum PHP & Base de données
    Réponses: 6
    Dernier message: 09/03/2006, 15h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo