Bonjour à tous,
je vais essayer de vous exposer mon problème. J'ai développé une application web qui scrute et "aspire" les contenus FB et IG de plusieurs tatoueurs. Le principe de l'app est de surveiller leurs déplacement et d'informer les internautes... bref. Je récupère toutes ces données en python et les stocke dans un fichier json (chaque enregistrement ayant un ID, une url, un texte ...).

Le problème c'est que je me retrouve avec de plus en plus d'infos à trier / de contenus à lire et analyser. En effet, je récupère TOUTES les publications quel qu’en soit le contenu. Je peux tout aussi bien récupérer quelque chose qui concerne un déplacement qu'une publi sur les vacances d'un tatoueur.... J'aurais donc aimé filtrer ces publis avant de les enregistrer dans mon json.

Globalement je retrouve toujours des expressions types du genre "guest", "retrouvez moi chez", des dates, des noms de ville.... J'envisagez de stocker toutes ces "expressions types" dans un fichier "Dictionnaire " par exemple et d'analyser chaque publi avant de l'enregistrer mais je ne sais pas par où commencer (expressions régulières....).

Il existe peut-être des outils tournant sur serveur permettant de faire cela, des API, des outils de traitement de DATA (comme c'est ce que l'on trouve un peu partout maintenant), peut-être même des outils d'apprentissage (on lui dit cette publi et bien celle-ci l'est moins et au bout d'un moment il se débrouille)...

Bref j'avoue ne pas trop savoir vers quoi m'orienter. Si quelqu'un avait une idée

Merci d'avance