Choix d'une méthode pour extraire des données web

**Serphone** · 26/06/2012, 09h56

Bonjour à tous,

Mon problème concerne le choix d'une méthode pour récupérer des données sur un autre site web.
L'idée du projet est de réaliser (en gros) un agrégateur de petites annonces immobilières, donc il faut être capable de récupérer les annonces sur des sites immobiliers.
Je vois plusieurs solutions possibles, mais ne sait pas du tout laquelle est la plus intéressante en termes de difficulté, performances, etc..

Les solutions que j'envisage sont:
_ soit récupérer les données des annonces sur les sites de manière régulière - effectuer un crawl une fois par jour par exemple - et les stocker dans une bdd interne. Les données étant alors accessibles plus facilement.
_ soit faire une sorte de "méta-moteur" où une recherche sur le site lancerait des requêtes sur chacun des sites immobiliers, et les résultats seraient alors traités à la volée pour les afficher correctement.
_ soit intégrer un flux rss/xml/csv - mis à jour par les sites - et stocker les annonces en dur dans une base de données.

Voilà les 3 solutions qui me viennent à l'esprit, j'imagine qu'il doit en exister d'autres, donc je suis ouvert à toute idée ou proposition et bien sûr à tout avis sur ces 3 solutions.

Alors.. qu'en pensez-vous ?

Merci d'avance pour vos réponses !

**Bovino** · 26/06/2012, 09h59

La première question à se poser est surtout : les sites en question t'autorisent-ils à récupérer leurs données, parce que sinon, c'est pas très légal ton truc...

**Pelote2012** · 26/06/2012, 10h00

Perso, je préfère la 1ere, car tu peux décider du traitement et faire un tri sur ce que tu veux et le mettre en forme de manière unique. Je ne pense pas que les annonces immobilières fluctuent tellement qu'une mise à jour en temps réelle soit nécessaire (au pire tu peux en faire une à 12H00).
Par contre, ça demande plus de boulot...

**Serphone** · 26/06/2012, 10h09

@Bovino: Oui l'aspect légal est important ici, mais ces extractions de données se feraient avec l'accord de leurs propriétaires

@BROWNY: Oui je trouve aussi que la première solution laisse plus de flexibilité quand au traitement des données. Après elle est plus compliquée..
Une de mes grandes interrogations, c'était aussi au niveau des perfs (rapidité de chargement du résultat) dans le cas le 2e cas (méta-moteur) si l'on imagine par exemple qu'il y ait une centaine de sites auxquels envoyer des requêtes.
Je n'ai vraiment aucune idée de ce que ça peut donner..

Et sinon pas d'autres solutions ?

En tout cas merci des réponses rapides !

**Bovino** · 26/06/2012, 10h16

Dans ce cas, tu ne peux pas voir avec eux pour qu'ils te fournissent un web service ?
Ce serait quand même plus pratique, et s'ils ont déjà des flux RSS, ça devrait pas être trop compliqué.

**Pelote2012** · 26/06/2012, 10h20

interroger les autres sites en direct, qu'est-ce qui se passe si t'as un site qui met 3 plombes à répondre...
Pour la slution 1 pas de pb, car si t'a pas mis à jour, tu as quand même des info récente à présenter.

Sinon, j'utilise le SSIS pour récupérer des données chez des fournisseurs, peut-être une piste. C'est assez simple d'utilisation et efficasse. T'as plein de module du genre traitement sur XML, envoi mail, FTP,traitement sur fichier plat... et des liaisons faciles avec une BDD à faire de manière graphique

**Serphone** · 26/06/2012, 10h25

@Bovino: Oui s'ils ont un flux rss, c'est sûr que ça serait plus simple, mais j'imagine que c'est loin d'être le cas pour tous !

@BROWNY: Merci pour le SSIS, je vais me renseigner un peu plus, mais il faut un accès direct dans leur bases de données du coup ?

Choix d'une méthode pour extraire des données web

Conception Web

Discussions similaires

Partager

Partager