Bonjour à tous,
Je reçois un string venant d'un flux RSS. Certains champs du RSS contiennent du code HTML et il est possible d'y mettre aussi du javascript même si je n'en ai jamais vu à ce jour. Lorsque j'affiche sur mon site le contenu du RSS, j'utilise donc une fonction de sécurisation de string qui neutralise l'HTML et javascript.
Evidemment cela à pour conséquence que si un flux utilise de l'HTML en abondance, cela n'est plus lisible vu que les balises HTML sont affichée en clair. De plus pour mon système d'indexation, ça foire tout vu que le code HTML entre alors en compte.
Donc j'aimerais pouvoir nettoyer un string de tout code HTML pour n'avoir que l'information pertinente.
Dans un second temps, j'aimerais détecter les liens vers des images mais là je pense que via un regex cela ne devrait pas être trop compliqué quoiqu'avec tous les différents types de fichier images... jpg, png, gif. Une fois cela fait, il faut que je vérifie que l'image est bien une image valide.
Le problème est que l'HTML peut ne pas être valide. Si quelqu'un désire attaquer mon site en ajoutant un flux contenant un code malicieux... Donc il faut une solution radicale mais trop non plus.
Si je supprime tout ce qui se trouve entre <*> et <*/> ce serait déja un bon début.
Donc pour résumer:
1/ Enlever les balises HTML et Javascript d'un string pour qu'ils n'apparaissent à l'affichage (qui sera tout de même sécurisé)
2/ Sortir les liens vers des images se trouvant dans un string
3/ Valider les images (content_type) il me semble
Merci,
Partager