Convertir html vers iso/unicode
Bonjour,
pour mon projet, je veux avoir acces au contenu textuel des fichiers html.
Pour l'instant, je lis les fichiers html et je supprime les balises(avec les regex, parce que certaines m'intéressent).
Par contre ce qui me pose problème ce sont les caractères spéciaux html. Actuellement j'ai fait un array avec des motifs qui me les change en caractères unicode.
Je me demande s'il n'y a pas une méthode plus simple.
Code:
1 2 3 4 5 6 7 8 9 10
|
public static String NettoieChars(String ligne){
Matcher matcher;
for(Pattern pattern : patternsChars){
int i = patternsChars.indexOf(pattern);
matcher = pattern.matcher(ligne);
ligne = matcher.replaceAll(chars.get(i));
}
return ligne; |
Donc la question : y a-il quelque chose de plus simple. Convertisseur etc.