cherche algo pour spliter une page web
bonjour a tous,
je cherche un algo ou une idée pour spliter (découper une page web) !
Mais je veux pas la spliter n'importe comment ! mon but est de faire un robot qui parse des forum ou blog avec pour objectif de trouvé les post publicitaire faits par des robot spammeur, et de remonter une alerte (=>voir d'agir quand c'est possible).
j'ai faits mon robot qui parcourt un site, mais je me heurte au problème de découpage de la page. j'explique, quand mon robot aspire une page de forum par exemple, je souhaiterais analyser le contenu de chaque post (réponse). Le truc c'est qu'il n'existe pas de norme pour séparer deux poste. Je pourrais faire un fichier de configuration pour chaque forum que je traite, mais je trouve ça long et fastidieux.
Alors je me demandais s'il n'y avais pas des personne qui connaissais des outils ou un principe de base pour pouvoir découpé une liste de réponse d'un forum en plusieurs fragment de text ?
merci à tous.
PS: j'utilise du python mais je suis ouvert a d'aute language !