1. #1
    Nouveau membre du Club
    Homme Profil pro
    Etudiant - Toulouse
    Inscrit en
    avril 2017
    Messages
    53
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 21
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Etudiant - Toulouse

    Informations forums :
    Inscription : avril 2017
    Messages : 53
    Points : 38
    Points
    38

    Par défaut [RStudio] Machin Learning et grand nombre de prédictions - RandomForest

    Bonjour,

    J'ouvre ce topic afin de vous demander votre avis quant aux solutions qui peuvent être utile quand on fait un Random Forest avec un grand nombre de modalités différentes à prédire.

    var1 var2 prédiction
    1 1 code1
    2 1 code2

    Mettons qu'il y ai 1000 codes possible et que c'est la variable à prédire grâce à nos 2 variables var1 et var2.
    (Je ne demande pas de conseils pour faire une Random Forest mais vraiment pour les problèmes dû au grand nombre de prédictions possible, packages recommandés, arguments dans la rf, un autre outils que R peut-être...)

    A savoir :
    j'utilise ce package : Library(randomForest)
    Problème de classification

    Merci.

    Mano

  2. #2
    Membre habitué
    Homme Profil pro
    Data scientist
    Inscrit en
    février 2017
    Messages
    80
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data scientist
    Secteur : Conseil

    Informations forums :
    Inscription : février 2017
    Messages : 80
    Points : 149
    Points
    149

    Par défaut

    Bonjour,

    Je peux savoir vous avez combien d'observations ( lignes ) dans ta table ? Est-ce que tu ne disposes que de deux variables explicatives ?

    De mon point de vue, pour pouvoir prédire une variable avec beaucoup de modalités à partir de deux variables explicatives et être pertinent c'est vraiment difficile, sauf si une des deux variables colle presque exactement à ta variable explicative et du coup c'est comme si t'expliques une variable par elle-même ou il y a une forte corrélation entre les variables et du coup t'auras tout gagné.
    Comme ça à chaud, je peux proposer de regrouper ta variable à expliquer en créant plusieurs clusters (par exemple faire un clustering sur ta variable à expliquer), t'auras par exemple 20 clusters (plus ou moins) de cette forme :
    clust1 = { modalité 1, modalité 9 ... }
    culst2 = {modalité 1000 , modalité 56 ..}
    ...
    ect
    pour ensuite modéliser le cluster. Essaye d'ajouter d'autres variables à partir de données en opendata par exemple ou autres.

    Cordialement,

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    Etudiant - Toulouse
    Inscrit en
    avril 2017
    Messages
    53
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 21
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Etudiant - Toulouse

    Informations forums :
    Inscription : avril 2017
    Messages : 53
    Points : 38
    Points
    38

    Par défaut

    Salut,

    Ici j'avais plus d'un million d'individus, et une de mes variable contenait un corpus de texte qui contenait beaucoup d'information.
    Effectivement j'ai opté pour la solution des clusters en regroupant les modalités se ressemblant le plus.
    Résultats :
    - simplicité d'interprétation
    - peu de perte d'information
    - modèle plus flexible et performant

    Merci tout de même pour ta réponse, le système de cluster est très arrangeant.
    Cordialement,
    Mano

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 0
    Dernier message: 31/07/2017, 18h07
  2. Réponses: 3
    Dernier message: 22/05/2005, 12h59
  3. requete sql sur un grand nombre d enregistrement
    Par marielaure dans le forum Langage SQL
    Réponses: 5
    Dernier message: 13/08/2004, 11h53
  4. Traitement d'un grand nombre de champ
    Par k-lendos dans le forum Langage SQL
    Réponses: 8
    Dernier message: 17/03/2004, 15h13
  5. Une unité pour gérer des très grands nombres
    Par M.Dlb dans le forum Langage
    Réponses: 2
    Dernier message: 09/09/2003, 12h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo