Peut-on copier les infos d'un site web avec class Robot ou autres ?

**henriette** · 24/03/2010, 21h50

bonjour,

j'aimerai récupérer les infos d'une page web que j'affiche à coté de mon programme java. Avec la class Robot on peut simuler la souris ou le clavier, je voudrai faire un copier des infos de IE. vous croyez que c'est possible ?

merci d'avance

henriette

**Pill_S** · 25/03/2010, 09h15

Envoyé par henriette

vous croyez que c'est possible ?

Oui.

par contre je suis pas sûr que ça soit la meilleure manière de faire. Utiliser Robot impose que l'on connaisse les positions X;Y à l'écran des éléments que l'on désire copier/screenshoter/autres.

Par contre on peut lire le flux html de la page (via URLConnection ou HTTPClient (de apache commons http)), et extraire ce qui nous intéresse pour l'afficher ailleurs

**tariq85** · 26/03/2010, 01h01

Envoyé par Pill_S

Oui.

par contre je suis pas sûr que ça soit la meilleure manière de faire. Utiliser Robot impose que l'on connaisse les positions X;Y à l'écran des éléments que l'on désire copier/screenshoter/autres.

Par contre on peut lire le flux html de la page (via URLConnection ou HTTPClient (de apache commons http)), et extraire ce qui nous intéresse pour l'afficher ailleurs

et comment faire pour extraire ce qui nous interesse, surtout si c'est des valeurs dans des tableaux ??

**Pill_S** · 26/03/2010, 14h16

bin on parse le contenu, c'est à dire qu'on recherche, dans la string contenant de l'html, la ou les zones qui contiennent le contenu désiré, en utilisant de la manipulation de string, des stringtokenizer, des expressions régulières ou des parseurs xml (à condition que l'html soit du xml bien formé)...

Ex en pseudo code:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
String search = "<table id=\"theIdOfTheTableToFind\">"
 
int position = theHTML.indexOf(search);
if(position<0) { throw new Exception("pas trouvé!"); }
 
position += search.length();
 
position = theHTML.indexOf("<tr>", position);
if(position<0) { throw new Exception("pas trouvé!"); }
...

bon courage

**tariq85** · 26/03/2010, 16h31

Merci Beaucoup

Je vais m'y mettre et je te tiendrais au courant si j'ai un probleme

**tariq85** · 26/03/2010, 17h37

Envoyé par tariq85

Merci Beaucoup

Je vais m'y mettre et je te tiendrais au courant si j'ai un probleme

J'ai fais comme tu m'a dis, mais le probleme c'est que la page dont j'ai besoin, j'ai pas pu en extraire rien du tout . J'ai essayé avec d'autre URL et ça marche, mais avec la mienne qui est 192.168.1.1 ( c'est la page de configuration de mon modem ) une erreur qui aparait :

Server returned HTTP response code: 401 for URL: http://192.168.1.1/
at sun.net.http://www.protocol.http.HttpURLConn...Stream(Unknown Source)
at JavaUrlConnectionReader.getUrlContents(JavaUrlConnectionReader.java:33)
at JavaUrlConnectionReader.main(JavaUrlConnectionReader.java:14)

**Pill_S** · 26/03/2010, 17h45

les erreurs 40x sont des erreurs serveur, en l'occurence 401 c'est "Unauthorized".

Il faut
1) se logguer sur la page d'accueuil du routeur en fournissant le user/password
2) charger la bonne page

pour ces 2 opérations, je te conseille de regarder du côté de HTTPClient (de la librairie commons-http): cela va te permettre de récupérer le cookie d'authentification au retour de 1) et de l'utiliser pour charger 2)

bon courage

**tariq85** · 27/03/2010, 17h20

Je crois que je vais laisser ça en dernier, j'essairais d'extraire les infos tout d'abord sur des pages statique, puis je ferais la connexion.. c'estmieux non ?

Peut-on copier les infos d'un site web avec class Robot ou autres ?

Java

Discussions similaires

Partager

Partager