IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Web sémantique Discussion :

Extraction de corpus


Sujet :

Web sémantique

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre habitué
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    12
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 12
    Par défaut Extraction de corpus
    Bonjour à tous,

    Je cherche un outil automatique un peut comme les aspirateurs web (url en entrée, pages HTML et sources en sortie) avec la particularité d'extraire que le texte des pages HTML (publicités, styles, images et balise HTML exclues). L'idéal, ça serait une sortie classique .txt.

    Le but est de créer un corpus spécifique de son choix, et l'exploiter par la suite dans une moulinette d'extraction de l'information du web sémantique.

    Connaissez-vous des outils pouvant répondre à mon besoin de création de corpus ?

    Merci d'avance

  2. #2
    Membre émérite
    Avatar de Sapience
    Homme Profil pro
    Consultant sémantique & data à sparna.fr
    Inscrit en
    Avril 2005
    Messages
    305
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Indre et Loire (Centre)

    Informations professionnelles :
    Activité : Consultant sémantique & data à sparna.fr
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2005
    Messages : 305
    Par défaut
    Jette un oeil à l'API Alchemy : http://www.alchemyapi.com/api/text/htmlc.html
    Il y a un appel pour nettoyer du HTML. L'API est gratuite jusqu'à 1000 appels par jour.
    Sinon des choses comme Readability peuvent t'aider peut-être.

  3. #3
    Membre habitué
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    12
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 12
    Par défaut
    Bonjour,

    Très intéressante l'API, elle permet exactement ce que je désire. Certes l'automatisation des appels ne m'est pas sorcier, mais il va falloir au préalable identifier manuellement les URLs dont on désire extraire le texte. Pour mon cas il s'agit d'aux minimum 20 000 pages Bonsoir la galère.

    Cela me serait plus utile, s'il y a moyen de parcourir automatiquement les pages HTLM et en extraire le texte, en précisant juste l'adresse racine du site en question. (Principe d'un aspirateur Web).

  4. #4
    Membre émérite
    Avatar de Sapience
    Homme Profil pro
    Consultant sémantique & data à sparna.fr
    Inscrit en
    Avril 2005
    Messages
    305
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Indre et Loire (Centre)

    Informations professionnelles :
    Activité : Consultant sémantique & data à sparna.fr
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2005
    Messages : 305
    Par défaut
    Il faut donc que tu combines les appels à l'API avec un crawler en amont, comme Nutch ou Heritrix. Un peu de travail d'intégration en perspective...

  5. #5
    Membre habitué
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    12
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 12
    Par défaut
    Merci Men, tu as éclairé mon chemin .

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraction de mots clés
    Par Olive1808 dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 01/02/2016, 20h49
  2. [XML] extraction directe de données d'une BDD
    Par MicKCanE dans le forum XQUERY/SGBD
    Réponses: 7
    Dernier message: 04/09/2006, 13h01
  3. [tables systèmes] extraction de la structure d'une base
    Par laffreuxthomas dans le forum Autres SGBD
    Réponses: 6
    Dernier message: 23/03/2006, 13h24
  4. requête d'extraction de lieux (st et saint)
    Par sdchamplas dans le forum Langage SQL
    Réponses: 8
    Dernier message: 20/02/2003, 11h17
  5. Extraction des phrases d'un Texte
    Par LE CHAKAL dans le forum Langage
    Réponses: 6
    Dernier message: 19/08/2002, 21h23

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo