IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

HTML Discussion :

extraire du texte d'un fichier html


Sujet :

HTML

  1. #1
    Membre à l'essai
    Inscrit en
    Mars 2009
    Messages
    25
    Détails du profil
    Informations personnelles :
    Âge : 37

    Informations forums :
    Inscription : Mars 2009
    Messages : 25
    Points : 16
    Points
    16
    Par défaut extraire du texte d'un fichier html
    Bonjour,
    je voudrais extraire le texte contenu dans un fichier HTML, entre les balises <title> et les balises <p>;
    et extraire uniquement le texte, par exemple :
    <p>texte partie 1<b>text partie2</b></p>
    je veux obtenir "texte partie1 + texte partie2" sans la balise <b> au milieu.

    Y a t'il une fonction/bibliothèque prédéfini pour faire cela en java ? ou autre ?

    Merci

  2. #2
    Expert éminent sénior

    Avatar de vermine
    Profil pro
    Inscrit en
    Mars 2008
    Messages
    6 582
    Détails du profil
    Informations personnelles :
    Âge : 39
    Localisation : Belgique

    Informations forums :
    Inscription : Mars 2008
    Messages : 6 582
    Points : 79 912
    Points
    79 912
    Par défaut
    Bonjour,

    Que voulez-vous faire du texte ? A partir de où voulez-vous le récupérer et où voulez-vous le mettre ?

  3. #3
    Modérateur
    Avatar de Bisûnûrs
    Profil pro
    Développeur Web
    Inscrit en
    Janvier 2004
    Messages
    9 868
    Détails du profil
    Informations personnelles :
    Âge : 40
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Janvier 2004
    Messages : 9 868
    Points : 16 258
    Points
    16 258
    Par défaut
    Quoi qu'il en soit, ça ne se fait certainement pas en HTML, mais par un langage de script (client ou serveur en fonction des besoins). Rappelons que le forum HTML n'est pas le fourre-tout du web.

  4. #4
    Membre à l'essai
    Inscrit en
    Mars 2009
    Messages
    25
    Détails du profil
    Informations personnelles :
    Âge : 37

    Informations forums :
    Inscription : Mars 2009
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    Bonjour,

    Ce que je cherche est une partie d'un travail qui consiste a faire du text mining, l'application consiste à extraire des information d'un text.
    Le choix c'est porté sur l'extraction des informations du contenu HTML ; j'ai pris le cas des pages de l'encyclopédie wikipedia, ou mon application extrait des informations essentielles d'une page wikipedia à partir d'une requete utilisateur.

    La première étape donc consiste à extraire le contenu de la page HTML et le mettre dans un fichier texte ou XML, ensuite faire les traitements qu'il faut.

    Merci de m'aider.

  5. #5
    Nouveau Candidat au Club
    Inscrit en
    Avril 2010
    Messages
    1
    Détails du profil
    Informations forums :
    Inscription : Avril 2010
    Messages : 1
    Points : 1
    Points
    1
    Par défaut
    Bonjour,

    si j'ai un ficier xml, comment extraire les termes de ce fichier?
    Merci

  6. #6
    Membre émérite
    Avatar de polymorphisme
    Homme Profil pro
    Publishing
    Inscrit en
    Octobre 2009
    Messages
    1 460
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Publishing
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2009
    Messages : 1 460
    Points : 2 371
    Points
    2 371
    Par défaut
    Bonjour,

    si j'ai un ficier xml, comment extraire les termes de ce fichier?
    Tu peux utiliser le langage XSL (XSLT, XPath, XSL-FO)

    Après, pour ce sujet, le forum Langages >> XML est plus approprié.
    Article : Installation de Cocoon
    Je ne réponds pas aux MP à caractère technique.

  7. #7
    Membre à l'essai
    Inscrit en
    Mars 2009
    Messages
    25
    Détails du profil
    Informations personnelles :
    Âge : 37

    Informations forums :
    Inscription : Mars 2009
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    salut
    j'ai trouvé un truc HTML Parser, c'est des bibliothèques pour java j'ai pas bien compris le fonctionnement , avez vous deja eu expérience avec ceci, merci de partager vos expériences.

  8. #8
    Modérateur
    Avatar de Bisûnûrs
    Profil pro
    Développeur Web
    Inscrit en
    Janvier 2004
    Messages
    9 868
    Détails du profil
    Informations personnelles :
    Âge : 40
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Janvier 2004
    Messages : 9 868
    Points : 16 258
    Points
    16 258
    Par défaut
    Citation Envoyé par Bisûnûrs Voir le message
    Rappelons que le forum HTML n'est pas le fourre-tout du web.
    Merci de vous diriger dans le forum approprié.

  9. #9
    Membre émérite
    Avatar de polymorphisme
    Homme Profil pro
    Publishing
    Inscrit en
    Octobre 2009
    Messages
    1 460
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Publishing
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2009
    Messages : 1 460
    Points : 2 371
    Points
    2 371
    Par défaut
    Bonjour,

    voiçi mon expérience avec "un truc HTML parser" :
    la chose bidule à bien machiner.

    Il faut être un peu plus explicite si tu veux que l'on puisse t'aider.
    Article : Installation de Cocoon
    Je ne réponds pas aux MP à caractère technique.

Discussions similaires

  1. [FPDF] Extraire le texte d'un fichier PDF
    Par brune38 dans le forum Bibliothèques et frameworks
    Réponses: 3
    Dernier message: 13/10/2009, 10h26
  2. Réponses: 8
    Dernier message: 27/04/2008, 15h27
  3. Extraction du text dans un fichier html
    Par projetGTR dans le forum Web
    Réponses: 15
    Dernier message: 20/09/2007, 11h30
  4. [COM] Extraire le texte d'un fichier "word" (.doc) avec
    Par ptikiwi dans le forum Bibliothèques et frameworks
    Réponses: 6
    Dernier message: 09/06/2006, 17h06
  5. Extraire le texte d'un fichier quelconque
    Par avogadro dans le forum Delphi
    Réponses: 3
    Dernier message: 02/06/2006, 13h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo