IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Suppression des balises d'un fichier HTML avec JAVA


Sujet :

Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2020
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2020
    Messages : 5
    Par défaut Suppression des balises d'un fichier HTML avec JAVA
    Bonjour,

    Je cherche à supprimer toutes les balises d'un fichier HTML avec JAVA. Seriez-vous comment faire?

    Merci d'avance,

    Owl___

  2. #2
    Nouveau membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    Janvier 2020
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Janvier 2020
    Messages : 8
    Par défaut
    Salut, tu peux utiliser une expression régulière.

  3. #3
    Modérateur
    Avatar de joel.drigo
    Homme Profil pro
    Ingénieur R&D - Développeur Java
    Inscrit en
    Septembre 2009
    Messages
    12 430
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 55
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur R&D - Développeur Java
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2009
    Messages : 12 430
    Billets dans le blog
    2
    Par défaut
    Salut,

    On pourrait le faire avec une expression régulière, pour du HTML de base, sans JavaScript. Et encore, il faudra éventuellement un code préparatoire pour récupérer le body, parce que je suppose qu'on ne veut pas les contenus de la balise <head>. Et traiter les conversions des entités. Etc.

    Le plus simple est d'utiliser un parser. Par exemple, avec la bibliothèque JSoup, à partir d'une String qui contient du HTML :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    	public static String htmlToString(String html) {
    		return Jsoup.parse(html).body().text();
    	}
    Tu voudras peut-être même avoir les différents paragraphes, avec retour à la ligne :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
            public static String htmlToText(String html) {
    		StringWriter sw = new StringWriter();
    		PrintWriter pw = new PrintWriter(sw);
    		Jsoup.parse(html).body().select("p").stream().map(Element::text).forEach(pw::println);
    		return sw.toString();
    	}
    Voire même obtenir un texte structuré, avec les listes, les puces, les tableaux alignés, tout ça est possible relativement facilement avec JSoup.
    Ou seulement traiter chaque élément séparément d'ailleurs.
    L'expression "ça marche pas" ne veut rien dire. Indiquez l'erreur, et/ou les comportements attendus et obtenus, et donnez un Exemple Complet Minimal qui permet de reproduire le problème.
    La plupart des réponses à vos questions sont déjà dans les FAQs ou les Tutoriels, ou peut-être dans une autre discussion : utilisez la recherche interne.
    Des questions sur Java : consultez le Forum Java. Des questions sur l'EDI Eclipse ou la plateforme Eclipse RCP : consultez le Forum Eclipse.
    Une question correctement posée et rédigée et vous aurez plus de chances de réponses adaptées et rapides.
    N'oubliez pas de mettre vos extraits de code entre balises CODE (Voir Mode d'emploi de l'éditeur de messages).
    Nouveau sur le forum ? Consultez Les Règles du Club.

  4. #4
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2020
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2020
    Messages : 5
    Par défaut
    Bonjour,

    Merci pour votre réponse. Je dois récupérer le fichier html comme cela avec un FileReader?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    import java.io.*; 
    class new30{
     
    	FileReader html;     
    	html = new FileReader("new.html");	
            public static String htmlToText(string html) {
    		StringWriter sw = new StringWriter();
    		PrintWriter pw = new PrintWriter();
    		Jsoup.parse(html).body().select("p").stream().map(Element::text).forEach(pw::println);
    		return sw.toString();
    	}
     
    }

  5. #5
    Modérateur
    Avatar de joel.drigo
    Homme Profil pro
    Ingénieur R&D - Développeur Java
    Inscrit en
    Septembre 2009
    Messages
    12 430
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 55
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur R&D - Développeur Java
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2009
    Messages : 12 430
    Billets dans le blog
    2
    Par défaut
    En Java 13,

    Il te suffit d'utiliser la méthode java.nio.file.Files.readString() :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    public static void exemple() {
     
    	try {
    		String text = htmlToText(Files.readString(Paths.get("/chemin/fichier.html")));
    	} catch (IOException e) {
    		e.printStackTrace();
    	}
     
    }
     
    public static String htmlToText(String html) {
    	StringWriter sw = new StringWriter();
    	PrintWriter pw = new PrintWriter(sw);
    	Jsoup.parse(html).body().select("p").stream().map(Element::text).forEach(pw::println);
    	return sw.toString();
    }
    Avant, on peut utiliser un FileReader/BufferedReader, via Files.newBufferedReader(), mais le plus simple est de récupérer les lignes et les joindre :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    try {
    	String text = htmlToText(Files.lines(Paths.get("/chemin/fichier.html")).collect(Collectors.joining()));
    } catch (IOException e) {
    	e.printStackTrace();
    }
    L'expression "ça marche pas" ne veut rien dire. Indiquez l'erreur, et/ou les comportements attendus et obtenus, et donnez un Exemple Complet Minimal qui permet de reproduire le problème.
    La plupart des réponses à vos questions sont déjà dans les FAQs ou les Tutoriels, ou peut-être dans une autre discussion : utilisez la recherche interne.
    Des questions sur Java : consultez le Forum Java. Des questions sur l'EDI Eclipse ou la plateforme Eclipse RCP : consultez le Forum Eclipse.
    Une question correctement posée et rédigée et vous aurez plus de chances de réponses adaptées et rapides.
    N'oubliez pas de mettre vos extraits de code entre balises CODE (Voir Mode d'emploi de l'éditeur de messages).
    Nouveau sur le forum ? Consultez Les Règles du Club.

  6. #6
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2020
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2020
    Messages : 5
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    import java.io.*;
    import java.nio.file.Path;
    import java.nio.file.Paths;
    import java.nio.file.Files;
    import java.io.IOException;
    import java.io.IOException;  
    //import org.jsoup.Jsoup;  
    //import org.jsoup.nodes.Document;
     
    public class new30{
    	public static void exemple() {
     		try {
    		String text = htmlToText(Files.lines(Paths.get("new.html")).collect(Collectors.joining()));
    		} 		
    		catch (IOException e) {
    		e.printStackTrace();
    		}
    		}
     
     
    	public static String htmlToText(String html) {
    		StringWriter sw = new StringWriter();
    		PrintWriter pw = new PrintWriter(sw);
    		Jsoup.parse(html).body().select("p").stream().map(Element::text).forEach(pw::println);
    		return sw.toString();
    		}	
     
    }
    J'obtiens les erreurs ci-jointes dans la capture. Une chose aussi quelle est la bibliothèque pour Jsoup?
    Images attachées Images attachées  

Discussions similaires

  1. [RegEx] Suppression des liens dans une chaîne html avec preg_replace
    Par moimp dans le forum Langage
    Réponses: 1
    Dernier message: 19/06/2018, 11h28
  2. Lire des ints dans un fichier texte avec java.io
    Par Vcouprie dans le forum Général Java
    Réponses: 1
    Dernier message: 07/02/2013, 20h01
  3. Création d'un fichier HTML avec Java sous Mac OS
    Par marooned dans le forum Général Java
    Réponses: 12
    Dernier message: 18/05/2012, 10h07
  4. parser un fichier HTML avec JAVA
    Par ouinih dans le forum EDI et Outils pour Java
    Réponses: 2
    Dernier message: 09/02/2009, 10h33
  5. Réponses: 8
    Dernier message: 23/04/2008, 20h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo