IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

Choix de l'algorithme de clustering


Sujet :

Méthodes prédictives

  1. #1
    Membre confirmé Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Par défaut Choix de l'algorithme de clustering
    Bonjour,

    J'ai à traiter un ensemble des documents mais je sais pas quel est le meilleur algorithme de "clustering" à choisir pour mon cas . Je veux essayer avec Self Organizing Map mais je ne suis pas assez convaincue.

    Pour moi je veux travailler en ligne c.à.d. à chaque fois qu’un nouveau document arrive, je le traite en les comparant à ceux existants .Pour ceux existants, ils sont en forme des clusters. Donc, le nouveau document va être comparé avec le centre de chaque cluster avec une certaine mesure de similarité pour savoir à quel cluster appartient.
    1. Pour travailler en ligne, je pense que la contrainte « incrémentale ‘ » doit être respectée. C.à.d. pour chaque nouveau document, je dois le comparer aux centres des clusters déjà trouvés. S’il peut appartenir à l’un d’eux ok. Sinon il doit former lui-même un nouveau cluster.
    Je veux essayer avec l’algorithme SOM. Mais, j’ai un souci en ce qui concerne le respect de SOM pour cette contrainte.

    2. L’arrivée des documents se fait en temps réel. Je dois donc tenir en compte la contrainte « temps réel ». J’ai encore un souci en ci concerne le respect de SOM pour cette contrainte.
    3. Je veux savoir quelle mesure de similarité est la mieux appropriée pour le traitement des documents textes. J’ai encore un souci en ce qui concerne la distance euclidienne qu’elle présente la mesure la plus appropriée pour ce cas.

    Pouvez-vous me guider?

  2. #2
    Nouveau candidat au Club
    Homme Profil pro
    Inscrit en
    Novembre 2011
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Savoie (Rhône Alpes)

    Informations professionnelles :
    Secteur : Conseil

    Informations forums :
    Inscription : Novembre 2011
    Messages : 3
    Par défaut clustering de documents
    Bonsoir,

    Je ne suis pas spécialiste de la classification de documents mais je vais néanmoins essayer de t'aiguiller.

    Premièrement, avant de parler du choix de l'algorithme, peux tu me donner quels sont les descripteurs sur lesquels tu vas t'appuyer pour comparer la similarité entre documents ?

    A bientôt

  3. #3
    Membre confirmé Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Par défaut
    Bonjour ,

    Mais, qu'est-ce que vous entendez par descripteurs?

  4. #4
    Membre confirmé Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Par défaut
    à mois que j'ai compris votre question, pour le moment, je vais me focaliser sur le tfidf. Et encore, je ne sais pas s'il s'agit de meilleur choix.

  5. #5
    Membre confirmé Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Par défaut
    Bonjour,

    Chaque document va subir une phase de prétraitement qui consiste à:
    1. supprimer les "stopwords"
    2. utiliser le "stemming"

    pour avoir un document pré-traité contenant un ensemble de mots représentant les descripteurs de ce dernier.

    Cordialement,

Discussions similaires

  1. Choix de l'algorithme de classification Naive Bayes
    Par nounouuuuu201186 dans le forum Algorithmes et structures de données
    Réponses: 3
    Dernier message: 21/01/2012, 23h07
  2. Zigbee : Choix du profil et des clusters
    Par VincentP35 dans le forum Embarqué
    Réponses: 0
    Dernier message: 27/12/2011, 22h44
  3. choix d'un algorithme
    Par laureat dans le forum Algorithmes et structures de données
    Réponses: 7
    Dernier message: 22/10/2009, 09h44
  4. Choix d'un algorithme pour labeling sur composant parrallele
    Par Glenou dans le forum Traitement d'images
    Réponses: 9
    Dernier message: 28/06/2007, 15h02
  5. Choix d'un Algorithme
    Par MelkInarian dans le forum Delphi
    Réponses: 2
    Dernier message: 24/03/2007, 09h49

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo