IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Développement Web en Java Discussion :

Comment copier uniquement le texte d'une page web ?


Sujet :

Développement Web en Java

  1. #1
    Membre expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 873
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 873
    Points : 3 717
    Points
    3 717
    Par défaut Comment copier uniquement le texte d'une page web ?
    Bonjour,

    J'aimerais savoir comment copier uniquement le texte d'une page web et enregistrer cela dans un fichier texte ?

    Merci.

  2. #2
    Modérateur
    Avatar de joel.drigo
    Homme Profil pro
    Ingénieur R&D - Développeur Java
    Inscrit en
    Septembre 2009
    Messages
    12 430
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur R&D - Développeur Java
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2009
    Messages : 12 430
    Points : 29 131
    Points
    29 131
    Billets dans le blog
    2
    Par défaut
    Salut,

    Tu dois combiner 3 fonctionnalités :

    • Une qui récupère le flux html depuis l'URL de la page WEB dans une chaîne de caractères ;
    • Une qui extrait de ce html le texte ;
    • Enregistrer le texte dans un fichier


    Pour la première, tu peux utiliser la classe URLConnection ou l'API Apache HttpClient.

    Pour la deuxième, on pourrait procéder par analyse purement texte, en supprimant le texte entre < et >, par parcours, ou par regex. Ca peut s'avérer plus ou moins complexe selon les cas. Habituellement, je procède plutôt personnellement en parsant le html avec un parser comme jsoup ou jericho par exemples. Un exemple de code java pour l'API Jericho pour extraire le texte d'un flux html : http://jericho.htmlparser.net/sample...tractText.java.
    L'expression "ça marche pas" ne veut rien dire. Indiquez l'erreur, et/ou les comportements attendus et obtenus, et donnez un Exemple Complet Minimal qui permet de reproduire le problème.
    La plupart des réponses à vos questions sont déjà dans les FAQs ou les Tutoriels, ou peut-être dans une autre discussion : utilisez la recherche interne.
    Des questions sur Java : consultez le Forum Java. Des questions sur l'EDI Eclipse ou la plateforme Eclipse RCP : consultez le Forum Eclipse.
    Une question correctement posée et rédigée et vous aurez plus de chances de réponses adaptées et rapides.
    N'oubliez pas de mettre vos extraits de code entre balises CODE (Voir Mode d'emploi de l'éditeur de messages).
    Nouveau sur le forum ? Consultez Les Règles du Club.

  3. #3
    Membre expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 873
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 873
    Points : 3 717
    Points
    3 717
    Par défaut
    Citation Envoyé par joel.drigo Voir le message
    Salut,

    Tu dois combiner 3 fonctionnalités :

    • Une qui récupère le flux html depuis l'URL de la page WEB dans une chaîne de caractères ;
    • Une qui extrait de ce html le texte ;
    • Enregistrer le texte dans un fichier


    Pour la première, tu peux utiliser la classe URLConnection ou l'API Apache HttpClient.

    Pour la deuxième, on pourrait procéder par analyse purement texte, en supprimant le texte entre < et >, par parcours, ou par regex. Ca peut s'avérer plus ou moins complexe selon les cas. Habituellement, je procède plutôt personnellement en parsant le html avec un parser comme jsoup ou jericho par exemples. Un exemple de code java pour l'API Jericho pour extraire le texte d'un flux html : http://jericho.htmlparser.net/sample...tractText.java.
    Merci et +1 !

Discussions similaires

  1. Réponses: 5
    Dernier message: 22/01/2014, 09h14
  2. comment charger le code source d'une page web avec dotnet ?
    Par gizgoz dans le forum Général Dotnet
    Réponses: 1
    Dernier message: 14/05/2007, 20h51
  3. comment afficher de l'OpenGL dans une page web ?
    Par arakiri dans le forum OpenGL
    Réponses: 4
    Dernier message: 25/12/2006, 12h30
  4. Cacher du texte d' une page web
    Par WELCOMSMAIL dans le forum Mise en page CSS
    Réponses: 6
    Dernier message: 26/10/2006, 11h02
  5. Comment Appuyer sur le bouton d'une page web...?
    Par Mayti4 dans le forum VB 6 et antérieur
    Réponses: 4
    Dernier message: 23/01/2005, 14h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo