IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Utilisation html parser ?


Sujet :

Java

  1. #1
    Membre à l'essai
    Inscrit en
    Mars 2009
    Messages
    25
    Détails du profil
    Informations personnelles :
    Âge : 37

    Informations forums :
    Inscription : Mars 2009
    Messages : 25
    Points : 16
    Points
    16
    Par défaut Utilisation html parser ?
    Bonjour
    je travail sur l'extraction d'information à partir d'un fichier html

    la première étape étais de transformer le fichier html en texte puis supprimer toutes les balises pour obtenir un texte nettoyé
    tout ça avec java
    la deuxième étape est d'écrire une grammaire en java qui lis -à partir du fichier nettoyé- les mots mot par mot et faire une recherche dans un dictionnaire pour indiquer le sens du mot
    par exemple si le mots est RAM sa va être étiquetté par 'matériel'


    ma question et comment utiliser html parser (htmlparser.sourceforge.net) pour réaliser cette première étape.

    et comment j'écris une grammaire en java ayant comme entrée un texte est donne en sortie un texte étiquetté mot par mot

    merci de m'aider

  2. #2
    Membre régulier
    Inscrit en
    Juillet 2009
    Messages
    96
    Détails du profil
    Informations forums :
    Inscription : Juillet 2009
    Messages : 96
    Points : 85
    Points
    85
    Par défaut
    Bonjour. Regarde sa. Ça enlève toutes les balises.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
     
    public class Aide {
    // Partie Test
        public static void main(String[] args) {
            System.out.println(enleveBalises("<html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>"));
        }
    // Partie Importante
        static String enleveBalises(String leHtml) {
            StringBuilder strb = new StringBuilder(leHtml);
            int startIndex = 0, endIndex = 0;
            while ((startIndex = strb.indexOf("<", endIndex)) != -1) {
                int nextIndex = strb.indexOf(">", startIndex + 1);
                strb.delete(startIndex, nextIndex + 1);
                endIndex = startIndex;
            }
            return strb.toString();
        }
     
    }
    Résultat: My First HeadingMy first paragraph.

    Pour tout couper en mot,
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    String[] mots = enleveBalises(variableContenantHtml).split(" ");

  3. #3
    Membre à l'essai
    Inscrit en
    Mars 2009
    Messages
    25
    Détails du profil
    Informations personnelles :
    Âge : 37

    Informations forums :
    Inscription : Mars 2009
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    Je vous remercie je vais essayer ça.

  4. #4
    Membre à l'essai
    Inscrit en
    Mars 2009
    Messages
    25
    Détails du profil
    Informations personnelles :
    Âge : 37

    Informations forums :
    Inscription : Mars 2009
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    Citation Envoyé par Simonake Voir le message
    Bonjour. Regarde sa. Ça enlève toutes les balises.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
     
    public class Aide {
    // Partie Test
        public static void main(String[] args) {
            System.out.println(enleveBalises("<html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>"));
        }
    // Partie Importante
        static String enleveBalises(String leHtml) {
          8O  StringBuilder strb = new StringBuilder(leHtml);8O
            int startIndex = 0, endIndex = 0;
            while ((startIndex = strb.indexOf("<", endIndex)) != -1) {
                int nextIndex = strb.indexOf(">", startIndex + 1);
                strb.delete(startIndex, nextIndex + 1);
                endIndex = startIndex;
            }
            return strb.toString();
        }
     
    }
    Résultat: My First HeadingMy first paragraph.

    Pour tout couper en mot,
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    String[] mots = enleveBalises(variableContenantHtml).split(" ");
    j'ai une erreur au niveau de StringBuilder strb = new StringBuilder(leHtml);
    cannot resolv symbol class ??????

  5. #5
    Membre régulier
    Inscrit en
    Juillet 2009
    Messages
    96
    Détails du profil
    Informations forums :
    Inscription : Juillet 2009
    Messages : 96
    Points : 85
    Points
    85
    Par défaut
    Ce ne serait pas ces deux '80' quo bug?
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    8O  StringBuilder strb = new StringBuilder(leHtml);8O

Discussions similaires

  1. Utilisation du module HTML::Parser
    Par altecad dans le forum Web
    Réponses: 4
    Dernier message: 13/09/2007, 14h26
  2. Besoin d'un coup de main avec HTML::Parser
    Par mobscene dans le forum Modules
    Réponses: 1
    Dernier message: 09/12/2006, 15h49
  3. HTML Parser
    Par SkyDev dans le forum Web
    Réponses: 1
    Dernier message: 21/08/2006, 16h38
  4. Utilisation de HTML::Parser
    Par mobscene dans le forum Web
    Réponses: 6
    Dernier message: 27/10/2005, 13h57
  5. Utiliser un parser pour extraire des formules
    Par EpOnYmE187 dans le forum C++
    Réponses: 2
    Dernier message: 15/03/2005, 23h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo