-
Parser fichier texte
Bonjour à tous!!
J'ai un petit soucis avec le parse d'un fichier, je m'explique. Je recupère une page html sous un fichier texte et j'aimerais enlever toutes les balises ou autres "codes" html. Pour cela j'utilise un StringBuilder, je fais un boucle pour lire et le fichier et j'applique
Code:
resultat.append(value.replaceAll("<[^>]+>",""));
pour enlever les balises. Lorsqu'à la suite je fais un
Code:
resultat.append(value.replaceAll(" ",""));
pour enlever les nbsp, la première instruction ne fonctionne plus.
Avez-vous déjà rencontré ce problème?
Merci d'avance
-
là tu ajoute deux fois le contenu (appel à append). Une fois sans balises, et ensuite une fois sans les , mais jamais sans les deux.
si tu veux appliquer plusieurs regexp, il faut appliquer chaque replace au résultat précédent, pas repartir du texte d'origine.
PS: on a déjà vu plus fiable que des regexp pour retirer des balises :)
-
Je vais essayer de m'en sortir avec ta remarque.
Quels sont les autres moyens pour enlever des balises s'il te plaît?
Merci pour ton aide
-
un parseur html en bonne et due forme ;)
-
Code:
<span title="La zone où x > 3y">le bas du plan</span>
Code:
<!-- <<< LE MENU PRINCIPAL >>> -->
:whistle:
-
En fait c'est bon j'ai utilisé une expression régulière, c'est pas la façon la plus belle de faire ça mais cela me convient!!
Merci de votre aide!!