IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Entrée/Sortie Java Discussion :

Récupération Email et Mots clé dans un fichier HTML


Sujet :

Entrée/Sortie Java

  1. #1
    Membre régulier
    Profil pro
    Étudiant
    Inscrit en
    Novembre 2009
    Messages
    236
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2009
    Messages : 236
    Points : 110
    Points
    110
    Par défaut Récupération Email et Mots clé dans un fichier HTML
    c'est un exercice d'école en faite.

    je dois print (comme j'ai fait avec les url) tous les mails que je rencontre, et tout les mots clé que je rencontre dans les divers URL.

    je dois simplement les récupérer betement sans les classé et savoir d'ou il viennent.

    je pense que pour les mails c'est : [a-z0-9._-]+@[a-z0-9._-]{2,}\\.[a-z]{2,4}

    et pour les mots clé : meta keywords

    mais j'ai aucune idée comment les récupérers.

    voici mon code actuel :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.io.PrintWriter;
    import java.net.URL;
    import java.io.Reader;
    import java.net.URLConnection;
    import java.util.ArrayList;
    import java.util.List;
    import java.util.logging.Level;
    import java.util.logging.Logger;
    import javax.swing.text.BadLocationException;
    import javax.swing.text.EditorKit;
    import javax.swing.text.SimpleAttributeSet;
    import javax.swing.text.html.HTML;
    import javax.swing.text.html.HTMLDocument;
    import javax.swing.text.html.HTMLEditorKit;
     
    public class robot {
     
       	 private static List<String> visitedURL = new ArrayList();
     
    	 public static void main(String[] args) {	
    	        collectURL("http://www.bde-ges.com");
    	 }
     
    	 private static void collectURL(String myurl){
    		  try {
                 // Chargement de la page
                 URL url = new URL(myurl);
                 URLConnection uconnection = url.openConnection();
                 Reader rd = new InputStreamReader(uconnection.getInputStream());
                 // Lecture du document
                 EditorKit kit = new HTMLEditorKit();
                 HTMLDocument doc = (HTMLDocument) kit.createDefaultDocument();
                 doc.putProperty("IgnoreCharsetDirective", new Boolean(true));
                 kit.read(rd, doc, 0);
                 // Parcour des balises de lien
                 HTMLDocument.Iterator it = doc.getIterator(HTML.Tag.A);
                 while (it.isValid()) {
                     SimpleAttributeSet s = (SimpleAttributeSet) it.getAttributes();
                     String link = (String) s.getAttribute(HTML.Attribute.HREF);
                     if ((link != null)&& !(visitedURL.contains(link))){
                         // ajout des liens trouvés à la List
                     	System.out.println(link);
                     	ecrire("C:/Users/log.txt", link);
                     	visitedURL.add(link);
                     	collectURL(link);
                     }
                     it.next();
                 }
    			 } catch (BadLocationException ex) {
    		         Logger.getLogger(robot.class.getName()).log(Level.SEVERE, null, ex);
    		     } catch (IOException ex) {
    		         Logger.getLogger(robot.class.getName()).log(Level.SEVERE, null, ex);
    		     }
    	 }
    }

    Quelqu'un saurait m'aider svp ?

    Merci d'avance

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Novembre 2007
    Messages
    281
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2007
    Messages : 281
    Points : 321
    Points
    321
    Par défaut
    Je te conseil de regarder de ce côté : http://download.oracle.com/javase/tu...gex/index.html

    Si tu as des questions n'hésite pas.

  3. #3
    Membre régulier Avatar de khand
    Homme Profil pro
    Développeur Web
    Inscrit en
    Juillet 2008
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2008
    Messages : 120
    Points : 118
    Points
    118
    Par défaut
    Salut,

    En son temps, j'avais utilisé ce tuto :

    http://benhur.teluq.uqam.ca/SPIP/inf...brique=7&sem=5

    Bonne journée et bonne chance !
    "Rather than love, than monney, than faith, than
    fame, than fairness, give me truth."

Discussions similaires

  1. Récupération du nombre de lignes dans un fichier
    Par heimfield dans le forum Débuter
    Réponses: 5
    Dernier message: 08/01/2009, 17h34
  2. Réponses: 3
    Dernier message: 26/09/2008, 14h10
  3. Réponses: 12
    Dernier message: 15/07/2008, 09h54
  4. Récupération de données pour mettre dans un fichier .txt
    Par lince102 dans le forum Interfaces Graphiques
    Réponses: 10
    Dernier message: 24/01/2008, 12h29
  5. Cherche mot clé dans des fichiers word
    Par milki1 dans le forum VB 6 et antérieur
    Réponses: 0
    Dernier message: 24/07/2007, 10h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo