IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Collection et Stream Java Discussion :

[regexp] purge flux html espaces et/ou retour chariots


Sujet :

Collection et Stream Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Inscrit en
    Novembre 2004
    Messages
    53
    Détails du profil
    Informations forums :
    Inscription : Novembre 2004
    Messages : 53
    Par défaut [regexp] purge flux html espaces et/ou retour chariots
    Bonsoir,

    je récupère le flux html d'un éditeur de texte et je voudrais vérifier qu'il ne contienne pas que des espaces [&nbsp;] et/ou retour chariots [<p>&nbsp;</p>].

    J'ai pensé d'abord faire un truc que je trouve un peu bourrin :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    String exemplefluxHtml = "&nbsp;&nbsp;&nbsp;<p>&nbsp;</p>&nbsp;<p>&nbsp;</p><p>&nbsp;</p>&nbsp;";
     
    String purge1 = exemplefluxHtml.replaceAll("<p>&nbsp;</p>","");
    String purge2 = purge1.replaceAll("&nbsp;","");
     
    if(purge2.equals(""))
        System.out.println("chaine vide");
    Inutile de préciser que c'est pas très performant surtout si je prend en paramètre un gros flux html.

    Ensuite, j'ai pensé à utiliser une expression régulière :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    String regexp = "(&nbsp;)*|(<p>(&nbsp;)*</p>)*";
    Mais je ne vois pas comment faire dans le cas ou par exemple il y a plusieurs espaces, puis un retour chariot et à nouveau des espaces bref ou tout est mélangé comment dans mon flux exemple. Quelle piste me suggerer vous de suivre ? Avez vous une idée pour m'éclairer ?

    Merci d'avance.

  2. #2
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    replaceAll("(&nbsp;)|<(p|P)>)|(</(p|P)>)|\n|\s","").trim().length()>0

  3. #3
    Membre Expert
    Profil pro
    Inscrit en
    Mai 2004
    Messages
    1 252
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Mai 2004
    Messages : 1 252
    Par défaut
    Non, _tchize : là, tous les <p> sont supprimés. Or, il ne veut enlever que les <p>&nbsp;</p>.

    Le mieux est d'avoir un code similaire (tu y étais presque) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    String regex = "(&nbsp;|<[pP]>(&nbsp;)*</[pP]>)+";

  4. #4
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Citation Envoyé par dingoth Voir le message
    Non, _tchize : là, tous les <p> sont supprimés. Or, il ne veut enlever que les <p>&nbsp;</p>.

    Le mieux est d'avoir un code similaire (tu y étais presque) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    String regex = "(&nbsp;|<[pP]>(&nbsp;)*</[pP]>)+";
    Je vois pas ou est le problème, ce qu'il cherche à faire c'est
    vérifier qu'il ne contienne pas que des espaces [&nbsp;] et/ou retour chariots
    Exactement ce que je fais en virant tous les espaces et les marques de paragraphes ^^

  5. #5
    Membre Expert
    Profil pro
    Inscrit en
    Mai 2004
    Messages
    1 252
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Mai 2004
    Messages : 1 252
    Par défaut
    Sauf que si on a <p>a</p>, ta regex renverra a, alors qu'il souhaite sans doute les conserver en l'état, ces paragraphes-là ("<p>a</p>" et non "a")

  6. #6
    Membre averti
    Inscrit en
    Novembre 2004
    Messages
    53
    Détails du profil
    Informations forums :
    Inscription : Novembre 2004
    Messages : 53
    Par défaut
    Je pense que les 2 solutions conviennent mais je vais quand même rester sur l'expression régulière à dingoth ! En tout cas un gros merci à tous les 2 pour votre aide

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 1
    Dernier message: 26/10/2009, 10h43
  2. Regexp de suppression d'espaces en début de ligne
    Par batmatm dans le forum Langage
    Réponses: 4
    Dernier message: 20/10/2005, 15h25
  3. Pb, Transformation d'un flux HTML en PDF
    Par elitost dans le forum XML/XSL et SOAP
    Réponses: 3
    Dernier message: 05/09/2005, 17h28
  4. XSLT -> HTML : formatage : indentation et retour a la lig
    Par jiib75 dans le forum XSL/XSLT/XPATH
    Réponses: 2
    Dernier message: 01/05/2004, 11h11
  5. xml->html : retour chariot, espaces dans un div
    Par d'Oursse dans le forum XML/XSL et SOAP
    Réponses: 9
    Dernier message: 27/04/2004, 19h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo