IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Filtrer json sur multiples expressions


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    48
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 48
    Par défaut Filtrer json sur multiples expressions
    Bonjour à tous,
    je vais essayer de vous exposer mon problème. J'ai développé une application web qui scrute et "aspire" les contenus FB et IG de plusieurs tatoueurs. Le principe de l'app est de surveiller leurs déplacement et d'informer les internautes... bref. Je récupère toutes ces données en python et les stocke dans un fichier json (chaque enregistrement ayant un ID, une url, un texte ...).

    Le problème c'est que je me retrouve avec de plus en plus d'infos à trier / de contenus à lire et analyser. En effet, je récupère TOUTES les publications quel qu’en soit le contenu. Je peux tout aussi bien récupérer quelque chose qui concerne un déplacement qu'une publi sur les vacances d'un tatoueur.... J'aurais donc aimé filtrer ces publis avant de les enregistrer dans mon json.

    Globalement je retrouve toujours des expressions types du genre "guest", "retrouvez moi chez", des dates, des noms de ville.... J'envisagez de stocker toutes ces "expressions types" dans un fichier "Dictionnaire " par exemple et d'analyser chaque publi avant de l'enregistrer mais je ne sais pas par où commencer (expressions régulières....).

    Il existe peut-être des outils tournant sur serveur permettant de faire cela, des API, des outils de traitement de DATA (comme c'est ce que l'on trouve un peu partout maintenant), peut-être même des outils d'apprentissage (on lui dit cette publi et bien celle-ci l'est moins et au bout d'un moment il se débrouille)...

    Bref j'avoue ne pas trop savoir vers quoi m'orienter. Si quelqu'un avait une idée

    Merci d'avance

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    48
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 48
    Par défaut
    En continuant à fouiller, je suis arrivé sur des termes tels que "NLP", "scikit-learn" mais cela est toujours un peu flou...

  3. #3
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    salut,

    Citation Envoyé par pusse Voir le message
    je suis arrivé sur des termes tels que "NLP", "scikit-learn"
    c'est des gros morceaux ça, NLP en gros c'est natural language processing (traitement du langage naturel ou TAL(N) en français), scikit-learn c'est une boite à outils pour faire du machine learning, m'est avis que tu n'en es pas là

    au plus simple ce que tu peux faire c'est essayer de discriminer tes données en fonction d'un ou plusieurs mots-clés

    en Python ça se traduit par de la simple recherche if toto.find(machin) ou encore if machin in toto
    jusqu'aux expressions rationnelles (regular expressions ou regex) if re.search("rentre bien (chez toi|au pérou|la poubelle)", toto) etc.

  4. #4
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    48
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 48
    Par défaut
    C'es-t ce que je me disais.... je vais surement m'orienter vers ça même si j'ai trouvé un bout de code à cette url :

    https://stackoverflow.com/questions/8897593/similarity-between-two-text-documents


    Qu'en penses tu ?

  5. #5
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    Citation Envoyé par pusse Voir le message
    Qu'en penses tu ?
    qu'il vaut mieux comprendre ce qu'on fait et le coder soi-même autant que possible (avis perso, c'est ma façon de faire de l'informatique), s'en remettre à un bout de code mal- ou non-maitrisé c'est souvent l'assurance de ne pas trouver ce qu'on veut ou que la solution soit mal adaptée au problème

    en l'occurrence ce que tu montres permet d'établir la similarité entre deux documents texte, c'est à dire qu'à la fin ça te retourne une valeur empirique qui représente le coefficient de similarité, c'est adapté quand on fait des stats entre deux documents et qu'on veut vérifier si un texte en plagie un autre par exemple

    à voir si c'est vraiment ça ton besoin...

  6. #6
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    48
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 48
    Par défaut
    Je suis tout à fait d'accord sur le fait de comprendre le code etc... ça pas de problème sachant que c'est ainsi que j'ai procédé pour mon outil de scrap des réseaux...
    L'idée avec ce bout de code c'était de comparer une publication FB ou IG avec un texte "bidon" ne contenant que les mots qui m’intéresse.... de là j'en sors un score et si jamais nous sommes supérieur à une certaine valeur alors je garde l'info.

    Je partais sur cette idée car je pense que cela est plus efficace qu'une simple comparaison de mots.. mais peut-être ai-je tort

Discussions similaires

  1. TNSName.ora sur Oracle10g Express edition Client
    Par eag35 dans le forum Oracle
    Réponses: 7
    Dernier message: 12/06/2006, 09h42
  2. aide sur les expressions régulieres
    Par STEPH69000 dans le forum Langage
    Réponses: 7
    Dernier message: 31/05/2006, 17h54
  3. [Débutant] Questions sur Visual Express
    Par Ultiny dans le forum MFC
    Réponses: 10
    Dernier message: 02/03/2006, 16h52
  4. [RegEx] Aide sur une expression régulière toute simple
    Par tchoumak dans le forum Langage
    Réponses: 3
    Dernier message: 29/11/2005, 15h46
  5. Problème sur une expression régulière
    Par Verbal-Quint dans le forum Langage
    Réponses: 6
    Dernier message: 12/11/2004, 10h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo