IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Recherche de similarités


Sujet :

Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé Avatar de ploxien
    Inscrit en
    Février 2006
    Messages
    467
    Détails du profil
    Informations personnelles :
    Âge : 40

    Informations forums :
    Inscription : Février 2006
    Messages : 467
    Par défaut Recherche de similarités
    Hello,

    J'ai un problème que je n'arrive pas à résoudre.

    J'ai un mot (ou une suite de mots), genre "viagra".
    Ensuite, j'ai un texte plus ou moins long, genre un email

    Ce que je voudrais faire, c'est savoir si le mot "viagra" est contenu dans l'email. Facile, il suffit de faire un contains... Mais je voudrais également que les mots similaires soient détectés (genre vi@gra, viagras, VIAGRA, vlagras, ...).

    J'ai vu dans apache commons, des méthodes du genre
    difference(java.lang.String str1, java.lang.String str2)
    Compares two Strings, and returns the portion where they differ.
    mais le problème c'est qu'il faudrait comparer avec chaque mot, ou chaque paire de mots, ...

    Et le but est de chercher plusieurs mots dans un grand nombre d'emails, donc si ça prends pas 30 secondes par email, c'est pas plus mal

    Des pistes?

    Merci

  2. #2
    Membre éprouvé
    Profil pro
    Inscrit en
    Mars 2004
    Messages
    104
    Détails du profil
    Informations personnelles :
    Âge : 48
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Mars 2004
    Messages : 104
    Par défaut
    Salut,

    ça peut se faire mais ça va être long, sans parler de la liste de mots gigantesque que tu devras traiter. Ton antispam va être vite submergé.
    Je te conseille de regarder les filtres bayesiens et voir si il n'y a pas une implémentation en java

  3. #3
    Membre éclairé Avatar de ploxien
    Inscrit en
    Février 2006
    Messages
    467
    Détails du profil
    Informations personnelles :
    Âge : 40

    Informations forums :
    Inscription : Février 2006
    Messages : 467
    Par défaut
    En fait, le but premier n'est pas de faire un anti-spam, mais bien d'analyser un message étant un spam. Et donc de trouver si un message contient ou non une variante de certains mots, par exemple, pour effectuer une classification...

Discussions similaires

  1. Domaine d'application de la recherche d'images par similarité de texture
    Par mobi_bil dans le forum Traitement d'images
    Réponses: 4
    Dernier message: 29/08/2009, 14h42
  2. Algo de recherche de similarité de texte
    Par teddyalbina dans le forum Algorithmes et structures de données
    Réponses: 13
    Dernier message: 27/04/2008, 22h37
  3. [RegEx] recherche par similarité
    Par kenji33 dans le forum Langage
    Réponses: 1
    Dernier message: 23/01/2007, 14h49
  4. recherches des cours ou des explications sur les algorithmes
    Par Marcus2211 dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 19/05/2002, 22h18
  5. Recherche de documentation complète en algorithmes
    Par Anonymous dans le forum Algorithmes et structures de données
    Réponses: 1
    Dernier message: 29/03/2002, 12h09

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo