IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Développement Web en Java Discussion :

Problème extraction Code HTML


Sujet :

Développement Web en Java

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2013
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2013
    Messages : 3
    Par défaut Problème extraction Code HTML
    Bonsoir à tous !

    Comme le titre peut l’indiquer, j'ai quelques soucis pour l'extraction de mon code HTML, je m'explique :

    Mon problème n'est pas dans l'extraction, mes classes java marche très bien mais le soucis est que l'URL dont je veux extraire le code HTML est précédé d'une "pub" ou il faut cliquer sur l'URL pour afficher la page HTML.
    Exemple : http://touturf.com/

    Comment faire pour récupérer le code de la vrai page HTML et non le code HTML de la "pub" ?

    Merci d'avance !

  2. #2
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Vu que la pub n'apparait pas sur le site si tu a déjà le cookie du site, il suffit de faire deux requetes en préservant les cookies. La première va afficher la pub et te filer les cookies, tu jette, la deuxième affichera le site.

  3. #3
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2013
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2013
    Messages : 3
    Par défaut
    Tout d'abord merci de pour ta réponse.

    J'ai déjà penser à cette éventualité cependant j'ai l'impression que ma deuxième requête ne prend pas en compte l'acceptation des cookies sur la première.

    Je donne mon code d'extraction (Fonctionnel) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    package extraction;
     
    import java.io.BufferedReader;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.net.MalformedURLException;
    import java.net.URL;
     
    public class UrlReader {
        String url = "http://www.touturf.com/";
     
    //constructeur
    String readUrl() {
     
            try {
                // Definition d'un URL
                URL sourceURL = new URL(getUrl());
     
                BufferedReader in = new BufferedReader(new InputStreamReader(sourceURL.openStream()));
     
                System.out.println("\n\n\nLecture du fichier " + sourceURL.getFile()
                        + " sur le serveur " + sourceURL.getHost() + " utilisant " + sourceURL.getProtocol());
     
                String linebuffer; // Buffer qui contient chaque ligne
                String bigbuffer = ""; // Buffer qui contient toutes les lignes
     
                while (!(null == (linebuffer = in.readLine()))) {
                    bigbuffer += linebuffer + "\n";
                }
                in.close();
     
            return bigbuffer;
            } catch (MalformedURLException e) {
                System.out.println("Impossible de récupérer l'URL: \n" + e);
            } catch (IOException e) {
                System.out.println("Erreur du fichier: \n" + e);
            }
     
            return null;
     
        }
     
        void setUrl(String url) {
            this.url = url;
        }
     
        String getUrl() {
            return this.url;
        }
    }

  4. #4
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    les classes de bases de l'api java ne sont pas concues pour se faire passer pour un navigateur et gérer tout ce que gère un navigateur. Regarde du coté de http client.

  5. #5
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2013
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2013
    Messages : 3
    Par défaut
    Problème résolu !

    Voici le code de ma classe :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    package projet;
     
     
     
    import java.io.BufferedReader;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.net.CookieHandler;
    import java.net.CookieManager;
    import java.net.MalformedURLException;
    import java.net.URISyntaxException;
    import java.net.URL;
    import java.net.URLConnection;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
     
     
    public class UrlReader {
     
     
    //constructeur
    String readUrl(String url) {
     
     
     
            try {
     
                // Definition d'un URL
                URL sourceURL = new URL(url);
                URLConnection urlConn = sourceURL.openConnection();
                urlConn.addRequestProperty("REFERER", "http://touturf.com/");
                urlConn.connect();
     
     
     
     
                BufferedReader in = new BufferedReader(new InputStreamReader(urlConn.getInputStream()));
     
     
                System.out.println("\n\n\nLecture du fichier " + sourceURL.getFile()
                        + " sur le serveur " + sourceURL.getHost() + " utilisant " + sourceURL.getProtocol());
     
                String linebuffer; // Buffer qui contient chaque ligne
                String bigbuffer = ""; // Buffer qui contient toutes les lignes
     
                while (!(null == (linebuffer = in.readLine()))) {
                    bigbuffer += linebuffer + "\n";
                }
                in.close();
     
            return bigbuffer;
            } catch (MalformedURLException e) {
                System.out.println("Impossible de récupérer l'URL: \n" + e);
            } catch (IOException e) {
                System.out.println("Erreur du fichier: \n" + e);
            }
     
            return null;
     
        }
     
     
     
    }

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Problème affichage code html dans textEdit
    Par mercure07 dans le forum Qt
    Réponses: 5
    Dernier message: 10/09/2009, 10h59
  2. Problème de code HTML
    Par Alban 56 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 2
    Dernier message: 05/07/2009, 07h17
  3. [JDOM] Problème écriture code HTML
    Par CrazyCow007 dans le forum Format d'échange (XML, JSON...)
    Réponses: 4
    Dernier message: 08/04/2009, 09h45
  4. Réponses: 2
    Dernier message: 28/11/2007, 14h34
  5. Problème fonction die() incluant du code html
    Par ksper92 dans le forum Langage
    Réponses: 2
    Dernier message: 30/11/2006, 08h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo