IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Fréquences des mots : la méthode TF-IDF


Sujet :

Intelligence artificielle

  1. #1
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Juin 2007
    Messages
    53
    Détails du profil
    Informations personnelles :
    Localisation : Canada

    Informations forums :
    Inscription : Juin 2007
    Messages : 53
    Points : 37
    Points
    37
    Par défaut Fréquences des mots : la méthode TF-IDF
    Bonjour,

    Premièrement, désolé, je ne savais pas trop si ma question trait plus aux algorithmes en général ou aux "IA".

    Je m'explique:

    Je possède une collection de spam, divisé en 49 catégories (selon le type d'arnaques).

    Je souhaite récupérer pour chaque "classe" de mon corpus la liste des mot-clé principaux.

    Pour cela, je souhaite utilisé la méthode TF-IDF. J'ai réaliser un petit programme de test et j'obtiens certaines valeurs, mais je ne sais pas trop comment les interpréter.

    Voici un petit exemple de ce que j'obtiens (sur la classe des spams de type "army") (c'est un échantillon) (mot:Wij) :

    A : 0.00429726279275631
    friend : 0.00311948182035214
    of : 0.00163105400271932
    mine : 0.00467922273052821
    an : 0.0139616353229905
    American : 0.00331923687484894
    Soldier : 0.00233356585786032
    currently : 0.00233356585786032
    based : 0.00233356585786032
    at : 0.00537370910143226
    the : 0.00643315987956016
    US : 0.000973548596947792
    Military : 0.00311948182035214
    base : 0.00467922273052821
    in : 0.0100925441828432
    Jarkater : 0.00233356585786032
    Indonesia : 0.00233356585786032
    kept : 0.00233356585786032
    large : 0.00311948182035214
    trunk : 0.00233356585786032
    boxes : 0.0094564396543659
    in : 0.0100925441828432
    my : 0.00196238853311466
    house : 0.00155571057190688
    since : 0.00155571057190688
    June : 0.00233356585786032
    He : 0.00467922273052821
    told : 0.00155571057190688
    me : 0.0043312095357544
    that : 0.000973548596947792
    the : 0.00643315987956016
    boxes : 0.0094564396543659
    contained : 0.00110069439863639
    private : 0.00155571057190688
    personal : 0.00077785528595344
    effects : 0.00233356585786032
    He : 0.00467922273052821
    had : 0.0046913765558023
    just : 0.00233356585786032
    returned : 0.00233356585786032
    from : 0.00155974091017607
    a : 0.0674272546774952
    tour : 0.00467922273052821
    of : 0.00163105400271932
    Military : 0.00311948182035214
    duty : 0.00467922273052821
    in : 0.0100925441828432
    Iraq : 0.000973548596947792
    In : 0.00467922273052821
    October : 0.00233356585786032
    he : 0.0100925441828432
    left : 0.00233356585786032
    again : 0.00233356585786032
    for : 0.00263028919175368
    Iraq : 0.000973548596947792
    on : 0.00823771889725054
    another : 0.00155571057190688
    tour : 0.00467922273052821
    of : 0.00163105400271932
    duty : 0.00467922273052821
    Unfortunately : 0.00233356585786032
    he : 0.0100925441828432
    died : 0.00110069439863639
    in : 0.0100925441828432
    Baghdad : 0.00155571057190688
    Iraq : 0.000973548596947792
    in : 0.0100925441828432
    Notons que je possède déjà une liste fiable des mot-clé de chaque catégorie (issus d'un travail de bachelor (fourni par ma prof), je travaille sur le même corpus) afin de vérifier mes résultats.

    Les principaux mot-clé de cette classe trouvé par le diplomant sont:

    iraq
    were
    boxes
    money
    notes
    iraq.
    took
    discovered
    concealing
    bittman
    Si vous auriez un petit indice pour que je puisse continuer ça serait sympa

    En tout cas, merci d'avance!

    ++

  2. #2
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Juin 2007
    Messages
    53
    Détails du profil
    Informations personnelles :
    Localisation : Canada

    Informations forums :
    Inscription : Juin 2007
    Messages : 53
    Points : 37
    Points
    37
    Par défaut
    Bonjour,

    Je reviens un coup a la charge

    On essaie d'implémenter le TF-IDF, mais on a un gros problème... On dispose de plus de 2000 mails, et cela prend enormément de temps a "parser"....

    N'y a t'il pas des méthodes plus simples/plus rapides? J'ai entendu parler d'une méthode grace aux probabilités, mais je ne trouve pas grand chose (la plupart de mes recherches me conduisent sur les filtre bayesien anti-spam)


    Merci d'avance

  3. #3
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Juin 2009
    Messages
    1
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2009
    Messages : 1
    Points : 1
    Points
    1
    Par défaut TFiDF Approche semantique
    Voici une approche, qui est largement utilisee par les outils anti-spam du marche.

    Votre demarche est interessante parce que vous avez posé les bases de l'algo et le principe de ranking d'un mot.

    idee 1 :
    Compiler pour chaque email, le ranking de chaque expression trouvee pour en determiner une probabilite de spam (methode exploitee par spamassassin).

    idee 2 :
    Puisque vous disposez d'un echantillon de mails reputés spam, appliquer le ranking, non pas sur du mot a mot mais sur des groupes de mot (ce que l'on peut nommer Ngrams), puis proceder comme l'idee 1.

    idee 3 :
    Exploiter les algos de classification automatique de données (genre corpus reuter) pour evaluer la propabilite de classification d'un email dans vos categories de spam.
    Si categorie trouvee, c'est probablement un spam. Notez que "probablement" implique une certaine incertitude..

    pensez peut-etre :
    on pense souvent que le contenu revele du "spam", mais le contenant (c'est a dire le contenu mime d'un email) est aussi important et revele plus largement les probabilites de spam. Si vous voulez produire un resultat pertinent, sans pour autant blacklister des emails normaux, cela devient tres precieux.

    Exemple a date :
    Un email qui parle des methodes de spam (et qui explique les principes du spam) ne doit pas lui meme etre mis en spam (avec votre methode, c'est le cas).


    Voila de quoi vous occuper pour vos soirées d'hivers

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. calcul de fréquence des mots
    Par doceln dans le forum MATLAB
    Réponses: 8
    Dernier message: 01/10/2012, 21h27
  2. TStringList et fréquence des mots.
    Par Bruno13 dans le forum Delphi
    Réponses: 58
    Dernier message: 05/07/2007, 12h38
  3. Mettre la première lettre des mots en majuscule
    Par seb.49 dans le forum Langage
    Réponses: 8
    Dernier message: 23/05/2003, 14h26
  4. Au sujet des mots de passe
    Par FranT dans le forum Langage
    Réponses: 6
    Dernier message: 17/09/2002, 22h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo