IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

Clustering / AFC-ACP en Text-Mining


Sujet :

Méthodes prédictives

  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Avril 2009
    Messages
    37
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2009
    Messages : 37
    Par défaut Clustering / AFC-ACP en Text-Mining
    Bonjour à tous,

    Voilà mon problème : je cherche actuellement à miner une série de textes, provenant de zones et d'époques différentes (premier biais), dont je souhaite déterminer les rapprochements et les groupes. Il s'agit donc de clustering.

    J'ai testé toute une série d'algorithmes, sous Weka (surtout K-means et EM) et sous R (packages : e1071, ade4, cluster, cclust, hclust, etc.). Pourtant, je ne suis guère satisfait de ce que j'obtiens... en fait de "simples" AFC semblent plus efficaces que toutes les "autres" méthodes de clustering, y compris des clustering sur ACP comme peut le faire le package ade4.

    Bien entendu, j'ai fait varier le pruning, afin d'extraire ce qui classait le mieux mes documents... rien n'y fait ... l'AFC reste largement plus stable, plus fiable je dirais.

    De même, je trouve assez peu d'articles portants *directement* (j'insiste sur le directement) sur ce(s) point(s). Aurais-je mal cherché ?!

    Quelqu'un aurait une idée s'il vous plaît ?
    Merci beaucoup pour toute réponse. Cordialement.

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Par défaut
    Bonjour,

    là tu te bats avec les algorithmes de classification et tu sembles converger vers une limite.
    Est ce qu'il ne vaudrait pas mieux améliorer tes descripteurs ?
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  3. #3
    Invité de passage
    Profil pro
    Inscrit en
    Juin 2011
    Messages
    1
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2011
    Messages : 1
    Par défaut Text Mining
    Je pense que ce lien peut t'aider, il y a pas mal d'informations.

  4. #4
    Membre averti
    Profil pro
    Inscrit en
    Avril 2009
    Messages
    37
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2009
    Messages : 37
    Par défaut
    Merci beaucoup pour vos réponses. Je vais réfléchir à tout ça.
    Oui, le LSA, mentionné dans le lien, est intéressant (pas encore tenté, contrairement au TF-IDF). Il faut que je regarde... je vous (re)dis dans quelques semaines

    Merci encore.

  5. #5
    Membre émérite

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Billets dans le blog
    2
    Par défaut
    Avant de traité un texte avec une ACP ou autre méthode, il faut analyser le text et pour cela il existe sous R des modules pour l'espagnole et l'anglais mais pas le français. J'ai prochainement une étude a faire tout comme toi sur des textes et j'ai trouver en open source Gate sur tu arrive a l'utiliser ? Sinon tu as celui-ci aussi.

    Cela peut il t'aider ?

  6. #6
    Membre éclairé
    Inscrit en
    Janvier 2006
    Messages
    288
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 288
    Par défaut
    Comme le dit à juste titre Toto13, il me semble qu'il vaudrait tout d'abord bien focaliser sur les descripteurs.

  7. #7
    Membre confirmé Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Par défaut
    Bonjour,

    Qu'est-ce que vous entendez par descripteurs?

  8. #8
    Membre émérite
    Homme Profil pro
    Ingénieur R&D en apprentissage statistique
    Inscrit en
    Juin 2009
    Messages
    447
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur R&D en apprentissage statistique

    Informations forums :
    Inscription : Juin 2009
    Messages : 447
    Par défaut
    Le descripteur est typiquement un vecteur de nombre qui synthétise l'information du document. Pour un document texte, il peut s'agir de l'histogramme représentant le comptage des occurrences des mots d'un dictionnaire par exemple.

  9. #9
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Par défaut
    Citation Envoyé par nounouuuuu201186 Voir le message
    Qu'est-ce que vous entendez par descripteurs?
    Prenons un exemple : que prendre comme descripteur si tu souhaitais décrire quelqu'un sans connaître son nom ?
    Ben pour ma part je commencerai par :
    - Sexe (ça sépare déjà bien la population et ça ne change pas)
    - Age, voire date de naissance.
    - Taille (bien descriptif pour un adulte, moins pour un enfant)
    - Couleur des cheveux (les filles qui adorent se faire des couleurs vont poser problème)
    - Poids (plus ou moins constant chez les individus... maudits régimes pour nous)
    - Signes particuliers distinctifs (très bien mais rare)

    Bref, c'est tout ce qui peut me permettre de décrire au mieux ce que l'on souhaite classer.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  10. #10
    Membre confirmé Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Par défaut
    Bonjour ,

    @Alexis.M:
    Est-ce que le descripteur peut être le vecteur des poids représentant un document. Ce vecteur est calculé par la mesure Tf-idf?

    @ ToTo13:
    Voilà ce que j'ai compris :

    que prendre comme descripteur si tu souhaitais décrire un document sans connaître la classe à qu'il appartient ?

    -->titre
    -->auteur
    -->date de publication
    -->mots clés
    ...
    Mais, ils ne sont pas organisés selon l'ordre de priorité comme vous ayez fait.
    Je souhaite que j'aie bien compris la notion de descripteur.

    Cordialement,

Discussions similaires

  1. text mining : Développement d'un outil d'analyse de CV
    Par ridan dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 16/09/2010, 16h54
  2. Text Mining / Racinisation
    Par domino313131 dans le forum Général Java
    Réponses: 1
    Dernier message: 23/04/2010, 14h36
  3. Réponses: 5
    Dernier message: 07/05/2009, 10h54
  4. Text-Mining et Delphi ?
    Par Bruno13 dans le forum Composants VCL
    Réponses: 0
    Dernier message: 30/11/2008, 05h43
  5. Text mining et full text search
    Par icebe dans le forum MS SQL Server
    Réponses: 2
    Dernier message: 09/07/2007, 13h35

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo