salut à vous tous,
je sollicite une fois de plus votre aide. voilà, mon travail consiste entre autre à parser les pages HTML. jusque là, tout va bien,j'utilise HTMLParser . J'arrive à extraire le style de la page si c'est une feuille de style interne(introduite avec la balise <style>).
Seulement,mon problème c'est que je voudrais récupérer la feuille de style externe à la page HTML pour pouvoir l'analyser aussi. Le problème c'est que dans la balise linkparfois on fait face à des chemins relatifs et parfois non. J'ai d'abord pensé à la classe java.net.URI
Code : Sélectionner tout - Visualiser dans une fenêtre à part <link rel="stylesheet" type="text/css" href="/style.css" />
mais ça n'a pas marché. je n'ai pas d'exception mais rien ne se passe. Je travaille sous apache tomcat.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5foo://example.com:8042/over/there?name=ferret#nose \_/ \______________/\_________/ \_________/ \__/ | | | | | scheme authority path query fragment
voilà le code que j'utilise
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43 for(NodeIterator nn=table2.elements();nn.hasMoreNodes();) { lTag=(LinkTag)nn.nextNode(); try {URI ui=new URI(lTag.getLink().toString()); URI ui_clt=new URI(url_pgclient); String chaine_rel=ui_clt.getScheme()+"://"+ui_clt.getAuthority()+ui_clt.getPath()+"/"+ui; String verif_extension=chaine_rel.substring(chaine_rel.lastIndexOf('.')+1); String nom_fichier=chaine_rel.substring(chaine_rel.lastIndexOf('/')+1); if(verif_extension.equalsIgnoreCase("css")) { try { // Création du fichier : FileOutputStream fos = new FileOutputStream("C:/Program Files/Apache Software Foundation/Tomcat 5.5/webapps/FATMA/CLIENTS/"+log+"/"+nom_fichier); // Ouverture des flux URL url_style=ui_clt.toURL(); InputStream is=url_style.openStream(); // Lecture par segment de 0.5Mo byte buffer[]=new byte[512*1024]; int nbLecture; while( (nbLecture = is.read(buffer)) != -1 ) { fos.write(buffer, 0, nbLecture); } is.close(); fos.close(); } catch( java.io.FileNotFoundException f ) { } catch( java.io.IOException e ) { } } } catch(java.net.URISyntaxException use){ } }
Partager