IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Entrée/Sortie Java Discussion :

Extraire des informations d'une page web


Sujet :

Entrée/Sortie Java

  1. #1
    lr
    lr est déconnecté
    Membre régulier
    Profil pro
    Inscrit en
    Octobre 2003
    Messages
    338
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Octobre 2003
    Messages : 338
    Points : 114
    Points
    114
    Par défaut Extraire des informations d'une page web
    Salut,

    J'ai envie de développer un petit moteur qui soit capable de sauvegarder le contenu d'un forum. Je m'explique : j'ai eu la mauvaise idée de me créer un forum chez forumactif.com. Maintenant, j'aimerais installer mon propre PHPBB chez mon hébergeur et y reprendre mon forum mais ce n'est pas possible car forumactif ne permet pas d'exporter le contenu des forums qu'ils hébergent, pour des raisons de sécurité soi-disant.

    Il me faut donc un truc pour pomper tout le contenu de mon forum et le stocker sous une forme qui me permette de l'insérer dans la base de données de mon phpbb.

    Auriez-vous des suggestions ? Peut-être que ce genre d'outil existe déjà ?

    Je pensais associer des templates à des formats d'URL pour enregistrer le contenu des pages et suivre les liens qui s'y trouvent.

    Quel framework utiliser pour l'exploration des pages (connexion à une url, récupération de la page html etc.) et quel framework utiliser pour le parsing ?

    Toutes les pistes sont les bienvenues
    Merci d'avance
    Lilian

  2. #2
    lr
    lr est déconnecté
    Membre régulier
    Profil pro
    Inscrit en
    Octobre 2003
    Messages
    338
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Octobre 2003
    Messages : 338
    Points : 114
    Points
    114
    Par défaut
    Une idée ?

    Existe-t-il un framework pour l'interrogation d'un serveur et la récupération des pages HTML ?

    Existe-t-il un framework pour extraire des données d'une page web en se basant sur un template ?

  3. #3
    Membre chevronné
    Homme Profil pro
    Dév. Java & C#
    Inscrit en
    Octobre 2002
    Messages
    1 413
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Dév. Java & C#
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2002
    Messages : 1 413
    Points : 1 993
    Points
    1 993
    Par défaut
    JTidy et HTTPClient de Jakarta-Commons
    Bien le bonjour chez vous
    Jowo

  4. #4
    lr
    lr est déconnecté
    Membre régulier
    Profil pro
    Inscrit en
    Octobre 2003
    Messages
    338
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Octobre 2003
    Messages : 338
    Points : 114
    Points
    114
    Par défaut
    Merci pour ta réponse,

    HTTPClient me semble effectivement correspondre à ce que je veux pour les requêtes http.

    En revanche, jtidy est un vérificateur de syntaxe html. J'ai lu qu'il possède aussi un parseur DOM. Ca pourrait donc faire l'affaire mais je préfererais qqch qui fonctionne à base de templates. Dans chaque template je définis les "champs" qui contiennent les informations utiles et la lecture du document produit un objet qui contient les données de la page correspondantes aux champs.

    Si ça n'existe pas, je devrai le faire en partant de jtidy mais ça me ferait gagner du temps de réutiliser qqch d'existant.

Discussions similaires

  1. Extraire des informations d'une page Web
    Par SamSoFar dans le forum Langage
    Réponses: 3
    Dernier message: 28/01/2010, 16h24
  2. Extraire des données d'une page Web en VBA sous Excel
    Par BEMI dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 20/05/2009, 07h24
  3. [XL-2000] Récupérer des informations via une page web XML
    Par peofofo dans le forum Macros et VBA Excel
    Réponses: 1
    Dernier message: 24/04/2009, 16h46
  4. extraire des urls d'une page web
    Par Zorgloub dans le forum C++
    Réponses: 2
    Dernier message: 10/11/2007, 01h16
  5. [Système] Extraire des données d'une page web
    Par nazoreen dans le forum Langage
    Réponses: 17
    Dernier message: 22/03/2006, 22h38

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo