Bonjour,
J'ai un petit souci sur la récupération de contenu d'une page web (https://www.pmu.fr/turf/#!/28082014 {les dernier numéro correspondant à la date du jour}).
Petite historique de pourquoi le faire en java, je me suis fait une petite macro sous excel qui permet de faire des statistiques sur les courses hippique, efficace mais malheureusement pour la récupération de statistique, la macro ne fonctionnait pas avec tous les site, du coup passage à java, une meilleur compatibilité avec les sites
Mais comme avec le site pmu, je n'arrive pas à récupérer les infos des courses en cours, des résultats avec leur interface, seulement en faisant un copier coller sauvage => je ne veux pas faire ça.
Mon but est :
- faire une routine qui me permet de récupérer un maximum d'info (vers 1 heure du matin)=> en partie j'y arrive sauf pour le pmu
- faire une base de données avec MySQL, une fois les données pouvant être collectées, je me pencherai sur ce problème
- faire des pronostics (pour l'instant fiable sous certaines conditions.
pour cela, java pourra bien m'aider
Je vous passe le code utilisé pour récuperer le code de la page, mais pas le contenu :
Celui-ci fonctionne pour les sites où les données affichées sont dans le code source de la page, mais pour le site cité plus haut, ce qui me renvoie est (extrait dans un fichier texte avec les retours à la ligne faits) :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47 package import_donnees; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; public class import_site { public static void main(String[] args) { // TODO Auto-generated method stub try{ URL url = new URL("https://www.pmu.fr/turf/#!/28082014"); URLConnection con=url.openConnection(); System.out.println(con.getContent()); InputStream input = con.getInputStream(); while(input.available()>0) { FileWriter writer = null; char texte =((char)input.read()); try{ writer = new FileWriter("temp_partantpmu.txt", true); writer.write(texte); }catch(IOException ex){ ex.printStackTrace(); }finally{ if(writer != null){ writer.close(); } } } //System.out.print((char)input.read()); } catch(MalformedURLException e){ System.out.println(e); } catch(IOException e){ System.out.println(e); } } }
<!doctype html>
<!--[if IE]>
<![endif]-->
<html class="no-js" lang="fr">
<!-- version : 10.1.40 -->
<head>
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8"/>
<meta name="description" content="Pmu.fr vous conseille dans vos paris. Pmu.fr on parie que vous allez gagner !"/>
<meta name="keywords" content="PMU, Tirelire, course, Quinté+, Multi, Tiercé, 2sur4, Couplé, parier, paris, hippiques, pariez spot, Pari football, paris sportifs, pari sportif, poker, Texas hold'em"/>
<meta name="fragment" content="!">
<title>Turf, Courses Hippiques, Courses en direct - PMU</title>
<link href="https://cache.pmu.fr/turf/css/images/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="https://cache.pmu.fr/turf/css/1407770239495_styles-online.css" rel="stylesheet" type="text/css"/>
</head>
<!--[if IE 9]>
<body class="ie ie9">
<![endif]-->
<!--[if IE 8]>
<body class="ie ie8">
<![endif]-->
<!--[if IE 7]>
<body class="ie ie7">
<![endif]-->
<!--[if !IE]>-->
<body class="not-ie">
<!--<![endif]
En gros ma question,y a-t-il une solution pour récupérer le contenu de la page (ce qui s'affiche) mais pas le code source de cette page ?
Partager