IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Classification automatique de documents


Sujet :

Intelligence artificielle

  1. #1
    Membre éprouvé
    Inscrit en
    Avril 2005
    Messages
    1 110
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 1 110
    Points : 937
    Points
    937
    Par défaut Classification automatique de documents
    J'en ai déjà parlé plusieurs fois sur ce forum, de manière directe ou indirecte en cherchant à résoudre certains aspets spécifiques de l'implémentation globale.

    Ainsi, pour classer des documents, il faut leur donner une représentation numérique afin de pouvoir les comparer les uns aux autres par des calculs à exécuter sur un ordinateur.

    En supposant que l'on ait trouvé la "bonne" représentation numérique et la "bonne" formule pour les comparer (un calcul de "distance"), si on se limite à comparer tous les documents deux à deux on se trouve face à une complexité O(n²) qui ne permet pas, aujourd'hui, d'obtenir une réponse "rapide" quand on est face à des millions de documents.

    C'est ainsi qu'en fouillant sur le net et en interrogeant les forum, je me suis retrouvé avec une nomenclature barbare genre Rocchio, k-PPV, SVM, SOM... et sans doute d'autres encore.
    J'en ai retenu deux:
    -SVM (Support Vector Machine)
    -SOM (Self-Organizing Map)

    Je n'ai rien trouvé de suffisamment vulgarisé à propos de SVM, et je n'ai pas insisté car la classification avec cette méthode demande une supervision.

    Par contre, pour les SOM j'ai trouvé pas mal d'infos (en anglais), des exemples, de la discussion sur certains détails, etc. De plus, le principe est finalement très simple, et, surtout, la classification est entièrement automatique, aucune supervision n'est nécessaire. Quand on ne sait pas ce qu'on classe, c'est toujours utile...

    Mon problème est pour ainsi dire "résolu" bien que le paramétrage ne soit pas toujours aisé.

    Alors pourquoi ouvrir ce thread? Simple.
    Dans toutes mes recherches, je n'ai JAMAIS trouvé sur un site francophone la moindre allusion à ces fameux SOM. Que se soit les forum, les écoles, les universités, etc, on semble ignorer l'existence des SOM et j'ai chaque fois été orienté vers les SVM sans en trouver de vulgarisation autre qu'éducative (j'ai des millions de documents à classer moi, pas juste classer quelques auteurs de théatre ou poésie )

    J'aimerais donc, ici, en français , discuter de classification automatique de documents. Comparer les méthodes, évaluer les performances et l'efficacité, etc.

    A vous lire

    PS: Si vous voulez l'historique, tout a commencé ici: http://www.developpez.net/forums/viewtopic.php?t=321089

  2. #2
    Membre du Club
    Inscrit en
    Mai 2005
    Messages
    49
    Détails du profil
    Informations forums :
    Inscription : Mai 2005
    Messages : 49
    Points : 59
    Points
    59
    Par défaut Re: Classification automatique de documents
    Citation Envoyé par camboui
    Dans toutes mes recherches, je n'ai JAMAIS trouvé sur un site francophone la moindre allusion à ces fameux SOM. Que se soit les forum, les écoles, les universités, etc, on semble ignorer l'existence des SOM et j'ai chaque fois été orienté vers les SVM sans en trouver de vulgarisation autre qu'éducative
    c'est tout simplement une histoire d'mots cles => ces fameux SOM sont souvent appelés en jargon francophone les cartes auto-organisatrices de Kohonen ou cartes de Kohonen. quand a la docs, y a le site de l'INRIA.


    Remarque : ce que tu cherches est habituellement designé sous terme TextMining alors avec "cartes de Kohonen", "TextMining", "classification automatique" ....

    et bonne chance

  3. #3
    Membre confirmé
    Profil pro
    Directeur Scientifique
    Inscrit en
    Avril 2005
    Messages
    419
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur Scientifique

    Informations forums :
    Inscription : Avril 2005
    Messages : 419
    Points : 554
    Points
    554
    Par défaut
    Ce n'est pas mon domaine mais je sais que cela intéresse des gens dans le laboratoire où je travaille. Par exemple:
    http://www-apa.lip6.fr/~lesot/

  4. #4
    Membre éprouvé
    Inscrit en
    Avril 2005
    Messages
    1 110
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 1 110
    Points : 937
    Points
    937
    Par défaut Re: Classification automatique de documents
    Citation Envoyé par chebreg
    Citation Envoyé par camboui
    Dans toutes mes recherches, je n'ai JAMAIS trouvé sur un site francophone la moindre allusion à ces fameux SOM. Que se soit les forum, les écoles, les universités, etc, on semble ignorer l'existence des SOM et j'ai chaque fois été orienté vers les SVM sans en trouver de vulgarisation autre qu'éducative
    c'est tout simplement une histoire d'mots cles => ces fameux SOM sont souvent appelés en jargon francophone les cartes auto-organisatrices de Kohonen ou cartes de Kohonen. quand a la docs, y a le site de l'INRIA.


    Remarque : ce que tu cherches est habituellement designé sous terme TextMining alors avec "cartes de Kohonen", "TextMining", "classification automatique" ....

    et bonne chance
    Ben oui, où avais-je la tête . Ces français, à force de tout traduire...

    Sinon, google, bien sûr, on connait: Textual classification, document similarities, text retrieval, etc...

    Et la plus belle trouvaille est celle-ci: http://www.ai-junkie.com/ann/som/som1.html
    C'est un exemple parfait pour comprendre en 15 minutes ce qu'est un SOM (pardon une CAO ) afin d'en implémenter un dans les 15 suivantes

    Merci, merci, pour toutes ces nouvelles infos, mais je cherche à priori à ouvrir la discussion, à échanger un partage d'expérience sur des implémentations réussies.

  5. #5
    Membre éprouvé
    Inscrit en
    Avril 2005
    Messages
    1 110
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 1 110
    Points : 937
    Points
    937
    Par défaut
    Les cartes auto-organisatrices n'intéressent donc personne?

  6. #6
    Membre éprouvé Avatar de Nemerle
    Inscrit en
    Octobre 2003
    Messages
    1 106
    Détails du profil
    Informations personnelles :
    Âge : 53

    Informations forums :
    Inscription : Octobre 2003
    Messages : 1 106
    Points : 1 213
    Points
    1 213
    Par défaut
    visiblement non
    Nemerle, mathématicopilier de bars, membre du triumvirat du CSTM, 3/4 centre

  7. #7
    Membre éprouvé
    Inscrit en
    Avril 2005
    Messages
    1 110
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 1 110
    Points : 937
    Points
    937
    Par défaut
    Tant pis.

  8. #8
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    ce domaine me semble intéressant et je veux vraiment essayer la classification des documents en utilisant ce "vague" SOM.

  9. #9
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    Pour ceux intéressés,pouvez-vous me guider par un bon lien pour débuter à par
    http://www.ai-junkie.com/ann/som/som1.html
    Merci

  10. #10
    Membre éclairé
    Homme Profil pro
    Ingénieur R&D en apprentissage statistique
    Inscrit en
    Juin 2009
    Messages
    447
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur R&D en apprentissage statistique

    Informations forums :
    Inscription : Juin 2009
    Messages : 447
    Points : 752
    Points
    752
    Par défaut
    Les cartes de Kohonen sont souvent utilisées pour faire de la quantification vectorielle. Leur fonction première est plutôt le "dépliage" de données (réduction de dimension non linéaire), ce qui peut etre pratique pour faire de la visualisation. Dans tous les cas je ne suis pas persuadé que ce soit la première méthode à essayer.

    Pour faire de la quantification vectorielle, l'ago des k-moyennes est un classique, si on veut une methode plus rapide, d'autres méthodes telles que Neural Gas donnent de meilleurs résultats que les SOM.

    Pour le dépliage de données, des méthodes telles que Locally Linear Embedding, ou les Laplacian maps peuvent donner de bons résultats aussi.

    Si on veut rester sur des méthodes neuronal, voir du côté du méconnu Curvilinear Component Analysis.

  11. #11
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    je veux utiliser SOM(version Batch) comme 1re étape pour projeter mes données sur un espace à 2 dimensions puis utiliser k moyens comme seconde pour la délimitation des partitions.
    Je n'ai pas compris votre avis en ce qui concerne la classification des documents en utilisant SOM. Est-ce que c'est un mauvais choix?

Discussions similaires

  1. Réponses: 1
    Dernier message: 11/11/2007, 14h26
  2. Réponses: 7
    Dernier message: 28/09/2006, 01h30
  3. Réponses: 2
    Dernier message: 20/06/2006, 13h45
  4. [Javascript] Gerer impression automatique de document
    Par amarcil dans le forum Général JavaScript
    Réponses: 3
    Dernier message: 28/02/2006, 15h08
  5. Réponses: 4
    Dernier message: 20/08/2004, 11h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo