IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Entrée/Sortie Java Discussion :

Vérification des liens morts d'un site en Java


Sujet :

Entrée/Sortie Java

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Avril 2010
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2010
    Messages : 64
    Points : 40
    Points
    40
    Par défaut Vérification des liens morts d'un site en Java
    Bonjour voila j'aimerai verifier si un site contient des liens morts, j'ai fait ce programme mais lorseque je le lance il ne se passe rien, je ne sais pas s'il marche pas ou s'il est trop long, merci de bien vouloir m'aider

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
     
    import java.io.BufferedReader;
    import java.io.BufferedWriter;
    import java.io.File;
    import java.io.FileNotFoundException;
    import java.io.FileReader;
    import java.io.FileWriter;
    import java.io.IOException;
    import java.io.InputStream;
    import java.io.InputStreamReader;
    import java.net.MalformedURLException;
    import java.net.URL;
    import java.util.ArrayList;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
     
    public class Test {
     
    private static Pattern pattern = Pattern.compile("<\\s*a\\s*href\\s*=\\s*\"\\s*(.*?)\"\\s*>(.*?)<\\s*/\\s*a\\s*>");
     
    	private Matcher matcher;
     
    	private static ArrayList<String>a=new ArrayList<String>();
     
    	private static ArrayList<String>passe=new ArrayList<String>();
     
     
     
     
     
    	private String unLienprincipale;
     
    	public Test(String lienprincipale){
     
    		this.unLienprincipale=lienprincipale;
     
    		try {
     
    			this.lecture(this.unLienprincipale);
     
    		} catch (MalformedURLException e) {
     
    			// TODO Auto-generated catch block
     
    			e.printStackTrace();
     
    		}
     
    		for(String n:a){
     
    			System.out.println(n);
     
    		}
    }
     
    	public static void main(String[] arg){
     
    		new Test("http://www.monsite.com");
     
    	}
     
     
     
    	public  void lecture(String lien) throws MalformedURLException {
     
    		this.passe.add(lien);
     
    		String ligne="";
     
    		String contenu="";
     
    		if(urlExists(lien)){
     
    			URL url=new URL(lien);
     
    			InputStream is = null;
     
    			try {
     
    				is = url.openStream();
     
    			} catch (IOException e) {
     
    				// TODO Auto-generated catch block
     
    				e.printStackTrace();
     
    			}
     
    			BufferedReader br = new BufferedReader(
     
    			new InputStreamReader(is));
     
    			try {
     
    				while ((ligne = br.readLine()) != null) {
     
    				contenu=contenu+ligne;
     
    				}
     
    				br.close();
     
    				is.close();
     
    			} catch (IOException e) {
     
    				// TODO Auto-generated catch block
     
    				e.printStackTrace();
     
    			}
     
    			matcher=pattern.matcher(contenu);
     
    			while(matcher.find()){
     
    				String lien2=matcher.group(1);
     
    				if(!this.passe.contains(lien2) || !this.a.contains(lien2)){
     
    					this.lecture(lien2);}
     
    			}
     
    		}else{
     
    			System.out.println(lien);
     
    			a.add(lien);
     
    		}
     
     
     
    	}
     
    	public  boolean urlExists(String url)
     
    	   {
     
    	        try {
     
    	            URL site = new URL(url);
     
    	            try {
     
    	                site.openStream();
     
    	                return true;
     
    	            } catch (IOException ex) {
     
    	                return false;
     
    	            }
     
    	        } catch (MalformedURLException ex) {
     
    	            return false;
     
    	        }
     
    	   }
     
    }

  2. #2
    Rédacteur
    Avatar de CyberChouan
    Homme Profil pro
    Directeur technique
    Inscrit en
    Janvier 2007
    Messages
    2 752
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Janvier 2007
    Messages : 2 752
    Points : 4 314
    Points
    4 314
    Par défaut
    Ajoute plus de traces dans ton programme, afin de voir là où il bloque (avec des System.out.println() par exemple).

    Note : il est curieux d'effectuer les traitements de ta classe dans le constructeur... tu y verrais plus clair si tu décomposais ton programme en méthodes élémentaires.
    Avant de poster, pensez à regarder la FAQ, les tutoriaux, la Javadoc (de la JRE que vous utilisez) et à faire une recherche
    Je ne réponds pas aux questions techniques par MP: les forums sont faits pour ça
    Mes articles et tutoriaux & Mon blog informatique

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Avril 2010
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2010
    Messages : 64
    Points : 40
    Points
    40
    Par défaut
    c'est fait, le probléme est dans le strem, ça met beaucoup de temps a traiter des fichier, alors comme c'est un fichier html j'ai préféré prendre un parseur html qui je crois m'aiderai a avancer beaucoup plus vite, le probléme c'est qu'on m'a conseiller "html parser" , mais je suis perdu, je ne trouve aucun exemple basique de parcour d'arborécence fichier html sur lequel je peux me baser

    merci de bien vouloir m'aider

  4. #4
    Membre régulier
    Profil pro
    Inscrit en
    Août 2006
    Messages
    80
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Août 2006
    Messages : 80
    Points : 75
    Points
    75
    Par défaut
    Bonjour,

    Il y a quand même de l'horreur dans ce ptit code ...

    Ta fonction urlExists créé un URL, ouvre la connexion, reçoit le stream et n'en fait rien ...
    Si "return true", tu recréé ce même URL et tu réouvres une connexion.



    Sinon, il te serait peut-être plus simple d'utiliser un parser SAX et récupérer les "a".

    Ou carrément utiliser un moteur de test de site web: http://java-source.net/open-source/web-testing-tools

  5. #5
    Membre du Club
    Profil pro
    Inscrit en
    Avril 2010
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2010
    Messages : 64
    Points : 40
    Points
    40
    Par défaut
    en faite je ne vais pas recupérer que des liens, mais d'autre balise aussi, et comme le fichier contient du "HTML", je peux pas utiliser un parser XML comme sax

Discussions similaires

  1. [HTML 5] Outil de vérification des liens
    Par nicollivier dans le forum Balisage (X)HTML et validation W3C
    Réponses: 3
    Dernier message: 11/05/2011, 12h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo