IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Développement Web en Java Discussion :

Extraction de données web


Sujet :

Développement Web en Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Inscrit en
    Juillet 2009
    Messages
    34
    Détails du profil
    Informations forums :
    Inscription : Juillet 2009
    Messages : 34
    Par défaut Extraction de données web
    Bonjour tout le monde,
    j'ai essayé d'extraire le code source d'une page web en java.
    En effet, ma fonction prend en argument le lien (http//....) de la page puis crée un fichier texte en sortie contenant le code source.
    Le programme marche très bien sauf pour google.
    lorsque j'insère un lien vers une page des résultats de google le fichier en sortie ne contient plus le vrai code de cette page.
    Pire encore, Firefox ne permet pas de visualiser le code source d'une telle page à moins d'utiliser l'utilitaire "FireBug".
    Pour comprendre ce que je voulais dire par le vrai code source d'une page de résultats google, comparer le code obtenu par Firefox (affichage --> source) et celui obtenu en utilisant FireBug ou encore google chrome ( options pour développeurs --> afficher source).
    Une page des résltats de google est la page qui s'affiche lors d'une recherche, par exemple si je recherche "développez" dan google le lien de la page des résultats est :
    "http://www.google.fr/#hl=fr&q=developpez&aq=f&aqi=g10&aql=&oq= gs_rfai=&fp=fc9246973793d25a".

    Mon code Java est le suivant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    public class test {
    
        public static void getIpFrom(String adresse) {
            
            try {
            // creation d'un objet URL
            URL url = new URL(adresse);
            // on etablie une connection a cette url
            URLConnection uc = url.openConnection();
            // on y cree un flux de lecture
            InputStream in = uc.getInputStream();
            FileOutputStream fos = new FileOutputStream(new File("source.txt"));
            int n =0;
             while((n = in.read()) >= 0)
             {
                     //On écrit dans notre deuxième fichier
                     //avec l'objet adéquat 
                     fos.write(n);       
                     
             }
             
             //On ferme nos flux de données
             in.close();
             fos.close();
    
    
            
    
            } catch (MalformedURLException e) {
    
            e.printStackTrace();
            } catch (IOException e) {
    
            e.printStackTrace();
            }
        
            } 
        public static void main(String[] args) {
            
            
    System.out.print(getIpFrom("lien web"));
            
    
        }
    
    }

  2. #2
    Membre Expert
    Profil pro
    Inscrit en
    Mars 2002
    Messages
    1 132
    Détails du profil
    Informations personnelles :
    Âge : 53
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 1 132
    Par défaut
    Bonjour,

    Normalement ce que tu obtiens est le code source envoyé en réponse par le serveur web. Il s'agit du code html "brut" (c'est à dire sans aucune modification effectuée côté client par du JavaScript par exemple)

    Est-ce bien ce que tu voulais obtenir ?

    Y.

  3. #3
    Membre averti
    Inscrit en
    Juillet 2009
    Messages
    34
    Détails du profil
    Informations forums :
    Inscription : Juillet 2009
    Messages : 34
    Par défaut re : extraction
    Merci pour votre réaction.
    Mais justement c'est ça le problème.
    Moi je cherche à extraire le code propre de la page non plus ce code brut.
    est ce qu'il y a une possibilité pour ce faire?

Discussions similaires

  1. Extraction des données Web
    Par Invité dans le forum Débuter avec Java
    Réponses: 6
    Dernier message: 06/03/2014, 09h11
  2. Aide pour extraction de donnée web
    Par deco76 dans le forum Général Java
    Réponses: 2
    Dernier message: 26/01/2014, 12h45
  3. Réponses: 3
    Dernier message: 07/10/2013, 14h02
  4. extraction de données d'une page web en exploitant les RSS
    Par rose_des_sables dans le forum Servlets/JSP
    Réponses: 4
    Dernier message: 18/02/2007, 11h50
  5. bug dans programme d'extraction de données d'une page web
    Par youpimevla dans le forum Web & réseau
    Réponses: 11
    Dernier message: 31/08/2006, 10h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo