IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Web Discussion :

Crawler Open Search Serveur


Sujet :

Web

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut Crawler Open Search Serveur
    Bonjour,

    Je suis actuellement en train de réaliser un projet dans lequel j'aimerais crawler les textes de certains sites web (articles de presse, etc..), ainsi que de récupérer certaines données grâce à des requêtes et mots clés. Pour ce faire j'aimerais utiliser le logiciel Open Search Server mais j'ai pour l'instant du mal à l'utiliser.. J'aimerais savoir si ce logiciel est adapté à mon projet et si je peux parvenir à mes fins.

    Merci d'avance !

  2. #2
    Membre à l'essai
    Homme Profil pro
    Chef de projet technique
    Inscrit en
    Avril 2014
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2014
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    OpenSearchServer est totalement adapté au crawl de sites web, c'est même pour ce besoin qu'il est né
    Avez-vous lu le tutorial présent ici ? http://www.opensearchserver.com/docu...g_a_website.md Est-ce qu'il ne répond pas à toutes vos questions ?

    N'hésitez pas à me faire part de vos besoins exacts afin que je puisse vous renseigner au mieux.

    Cordialement,
    Alexandre
    Chef de projet technique - OpenSearchServer

  3. #3
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Bonjour Alexandre T,
    Je vous remercie tout d'abord pour votre aide. Je désirerai crawler un site web (news: article de presse...) et extraire les données suivantes : Titre , URL, Langue( OSS le fait déjà) mais également la date de parution de l'article et éventuellement la thématique. Pour la date de parution je n'arrive pas à trouver d'Analyzers spécifique qui pourrait déterminer une date. Donc si vous avez une solution à m'apporter par rapport à ce problème celà m'aiderait beaucoup dans l'avancée de mon projet. De plus je voudrais savoir s'il était possible d'indexer juste le contenu texte de l'article afin de pouvoir faire mon analyse sémantique dessus.
    Merci d'avance

  4. #4
    Membre à l'essai
    Homme Profil pro
    Chef de projet technique
    Inscrit en
    Avril 2014
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2014
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    Avez-vous étudié cette page ? http://www.opensearchserver.com/docu...m_web_pages.md

    Cela devrait vous permettre de cibler précisément les données à extraire.

    Il faudra effectivement probablement retraiter la date avec un analyzer afin de la transformer en format AAAAMMJJ. Voici un exemple d'analyzer pouvant faire ce travail, il vous suffit de l'appliquer au champ qui reçoit la date extraite de la page.

    Nom : date_analyzer.png
Affichages : 508
Taille : 36,5 Ko

    Cet analyzer transforme une date au format JJ/MM/AAAA en format AAAAMMJJ. La regexp est :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ([0-9]{2})/([0-9]{2})/([0-9]{4})
    Merci,
    Alexandre

  5. #5
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Bonjour Alexandre, nous nous demandions si nous pouvions récupérer la date de publication de l'article du monde (cf pj jointe) par un autre moyen : en utilisant un htlm parser. Voici comment nous l'avons écrit mais nous n'arrivons toujours pas à le faire bien que nous ayons regardé le tuto (http://www.opensearchserver.com/docu...m_web_pages.md). Auriez-vous des suggestions?

    Nom : Sans titre.png
Affichages : 369
Taille : 36,9 Ko
    Nom : Sans titre1.png
Affichages : 374
Taille : 35,9 Ko

  6. #6
    Membre à l'essai
    Homme Profil pro
    Chef de projet technique
    Inscrit en
    Avril 2014
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2014
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    Je ne vois pas bien quelle information vous souhaitez extraire du code source. Pouvez-vous me préciser cela ? Je ne vois pas de date dans le screenshot du code source.

    Votre Regexp me semble erronée car elle s'attend à trouver un juste après un double guillemet.

    Essayez par exemple avec :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    (?s)datetime="(.*?)".*?</time>
    Alexandre

  7. #7
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Bonjour Alexandre,
    Merci pour cette réponse.
    Nous voulons récupérer la date, dans cet exemple (à savoir 2015-03-30) et nous n'arrivons toujours pas à trouver une expression régulière pour cela.
    Nom : Capture.PNG
Affichages : 380
Taille : 6,1 Ko
    Nous avons également tester l'expression que vous nous avez suggérer mais sans succès.

  8. #8
    Membre à l'essai
    Homme Profil pro
    Chef de projet technique
    Inscrit en
    Avril 2014
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2014
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    Voici deux screenshot montrant l'extraction de dates pour la page de test http://www.lemonde.fr/actualite-medi...1850_3236.html

    Nom : testDateRegexp.png
Affichages : 362
Taille : 3,3 Ko

    Nom : testDateExtracted.png
Affichages : 359
Taille : 4,2 Ko

    Le test correspond à ce qu'affiche un Manual Crawl pour le crawl de cette page. J'ai créé un champ "test_date" dans le schéma et j'y ai mappé la valeur extraite par la regexp dans le HTML parser.

    La regexp utilisée est :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    (?s)datetime="([0-9]{4}-[0-9]{2}-[0-9]{2}).*?".*?</time>
    Ici deux éléments dans la page correspondent à cette regexp.


    Alexandre

  9. #9
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Merci beaucoup, ca nous aide vraiment

  10. #10
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Maintenant nous voulons récupérer les dates des différents sites web, que nous avons enregistrer dans la patern list grâce à un Query . Pour cela nous avons ajouté dans returned fields et searched field le paramètre date. Mais nous n'arrivons pas à récupérer la date pour autant
    Nom : Capture.PNG
Affichages : 345
Taille : 3,8 Ko
    Auriez-vous une solution?
    Nous sommes désolé de vous en demander tant.

  11. #11
    Membre à l'essai
    Homme Profil pro
    Chef de projet technique
    Inscrit en
    Avril 2014
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2014
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    Pourriez-vous m'envoyer une copie d'écran du Schéma de l'index ?

    Avez-vous bien ajouté le champ voulu dans l'onglet Returned field de la query ?

    Qu'obtenez-vous exactement lors d'une query ? Rien ? Ou alors des résultats mais sans ce champ ? Ou encore ce champ mais sans valeur ?

    Pouvez-vous aller dans l'onglet "Runtime / Terms" et choisir le champ de date et vérifier qu'il contient bien des valeurs ? Si le champ en question n'est pas présent dans la liste des champs dans l'onglet "Runtime / Terms" c'est que les données ne sont pas correctement indexées dans le champ.

    Merci,
    Alexandre

  12. #12
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Bonjour, voici une copie d'ecran du schema de l'index
    Nom : Capture.PNG
Affichages : 458
Taille : 40,3 Ko
    Nous avons ajouté le champ date dans l'onglet
    Nom : returnedfield.PNG
Affichages : 342
Taille : 16,8 Ko
    Lors d'une query nous n'avons rien dans le champ date il n' y a aucune valeur dans ce champ.

    Dans l'onglet Runtime nous avons ça
    Nom : term.PNG
Affichages : 325
Taille : 34,1 Ko

  13. #13
    Membre à l'essai
    Homme Profil pro
    Chef de projet technique
    Inscrit en
    Avril 2014
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2014
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    C'est étrange. Le champ est "Stored" (stocké) vous devriez donc récupérer la valeur donnée au champ avant le traitement par les analyzers. L'onglet Runtime / Terms montre les valeurs en sortie des analyzers, mais cela prouve bien que des valeurs sont reçues par le champ "date-article".
    Pouvez-vous m'envoyer une capture d'écran du résultat d'une requête dans l'interface ? Et un screenshot du résultat XML affiché au clic sur "XML/HTTP API Call" ?

    Merci,
    Alexandre

  14. #14
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Bonjour,
    Nom : Capture.PNG
Affichages : 392
Taille : 46,0 Ko
    Nom : Capture.PNG
Affichages : 390
Taille : 99,6 Ko

  15. #15
    Membre à l'essai
    Homme Profil pro
    Chef de projet technique
    Inscrit en
    Avril 2014
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2014
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    Est-ce que le document visible sur le screenshot est censé posséder une date ? Si vous utilisez la fonctionnalité de Manual Crawl pour crawler son URL, est-ce qu'une valeur est extraite pour le champ "date-article" ?

    Tous les documents n'ont peut-être pas de date dans votre index. Il faudrait faire une recherche qui fasse remonter un document dont vous êtes sûr qu'une date a été extraite.

    Cordialement,
    Alexandre

  16. #16
    Nouveau Candidat au Club
    Homme Profil pro
    Etudiant ingénirie financière
    Inscrit en
    Janvier 2015
    Messages
    9
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Etudiant ingénirie financière
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2015
    Messages : 9
    Points : 1
    Points
    1
    Par défaut
    Effectivement,
    tous les documents de l'index n'ont pas de date. De ce fait, certains ne retournent pas ce champ. En tout cas, nous vous remercions pour votre aide.
    Cordialement

Discussions similaires

  1. [SP-2010] Integrer le moteur Search Serveur 2010 dans une application cliente
    Par theo_ dans le forum SharePoint
    Réponses: 7
    Dernier message: 27/08/2014, 14h37
  2. open search server
    Par mychem118 dans le forum Autres Solutions d'entreprise
    Réponses: 2
    Dernier message: 02/04/2014, 12h24
  3. Pb avec crystal report - erreur 20599 - cannot open sql serveur
    Par casanova_shadow dans le forum VB 6 et antérieur
    Réponses: 6
    Dernier message: 21/11/2007, 11h45
  4. [Prototype] XMLHttpRequest open sur un serveur quelconque ?
    Par Neal Morse dans le forum Bibliothèques & Frameworks
    Réponses: 3
    Dernier message: 31/10/2007, 10h42
  5. Choix d'un serveur d'applications Open Source
    Par smh_master dans le forum Plateformes (Java EE, Jakarta EE, Spring) et Serveurs
    Réponses: 14
    Dernier message: 10/04/2007, 17h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo