IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

[RStudio] Machin Learning et grand nombre de prédictions - RandomForest


Sujet :

R

  1. #1
    Membre du Club
    Homme Profil pro
    Etudiant - Toulouse
    Inscrit en
    Avril 2017
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Etudiant - Toulouse

    Informations forums :
    Inscription : Avril 2017
    Messages : 57
    Points : 42
    Points
    42
    Par défaut [RStudio] Machin Learning et grand nombre de prédictions - RandomForest
    Bonjour,

    J'ouvre ce topic afin de vous demander votre avis quant aux solutions qui peuvent être utile quand on fait un Random Forest avec un grand nombre de modalités différentes à prédire.

    var1 var2 prédiction
    1 1 code1
    2 1 code2

    Mettons qu'il y ai 1000 codes possible et que c'est la variable à prédire grâce à nos 2 variables var1 et var2.
    (Je ne demande pas de conseils pour faire une Random Forest mais vraiment pour les problèmes dû au grand nombre de prédictions possible, packages recommandés, arguments dans la rf, un autre outils que R peut-être...)

    A savoir :
    j'utilise ce package : Library(randomForest)
    Problème de classification

    Merci.

    Mano

  2. #2
    Membre averti
    Homme Profil pro
    Data scientist
    Inscrit en
    Février 2017
    Messages
    211
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data scientist
    Secteur : Conseil

    Informations forums :
    Inscription : Février 2017
    Messages : 211
    Points : 343
    Points
    343
    Par défaut
    Bonjour,

    Je peux savoir vous avez combien d'observations ( lignes ) dans ta table ? Est-ce que tu ne disposes que de deux variables explicatives ?

    De mon point de vue, pour pouvoir prédire une variable avec beaucoup de modalités à partir de deux variables explicatives et être pertinent c'est vraiment difficile, sauf si une des deux variables colle presque exactement à ta variable explicative et du coup c'est comme si t'expliques une variable par elle-même ou il y a une forte corrélation entre les variables et du coup t'auras tout gagné.
    Comme ça à chaud, je peux proposer de regrouper ta variable à expliquer en créant plusieurs clusters (par exemple faire un clustering sur ta variable à expliquer), t'auras par exemple 20 clusters (plus ou moins) de cette forme :
    clust1 = { modalité 1, modalité 9 ... }
    culst2 = {modalité 1000 , modalité 56 ..}
    ...
    ect
    pour ensuite modéliser le cluster. Essaye d'ajouter d'autres variables à partir de données en opendata par exemple ou autres.

    Cordialement,

  3. #3
    Membre du Club
    Homme Profil pro
    Etudiant - Toulouse
    Inscrit en
    Avril 2017
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Etudiant - Toulouse

    Informations forums :
    Inscription : Avril 2017
    Messages : 57
    Points : 42
    Points
    42
    Par défaut
    Salut,

    Ici j'avais plus d'un million d'individus, et une de mes variable contenait un corpus de texte qui contenait beaucoup d'information.
    Effectivement j'ai opté pour la solution des clusters en regroupant les modalités se ressemblant le plus.
    Résultats :
    - simplicité d'interprétation
    - peu de perte d'information
    - modèle plus flexible et performant

    Merci tout de même pour ta réponse, le système de cluster est très arrangeant.
    Cordialement,
    Mano

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 0
    Dernier message: 31/07/2017, 18h07
  2. Réponses: 3
    Dernier message: 22/05/2005, 12h59
  3. requete sql sur un grand nombre d enregistrement
    Par marielaure dans le forum Langage SQL
    Réponses: 5
    Dernier message: 13/08/2004, 11h53
  4. Traitement d'un grand nombre de champ
    Par k-lendos dans le forum Langage SQL
    Réponses: 8
    Dernier message: 17/03/2004, 15h13
  5. Une unité pour gérer des très grands nombres
    Par M.Dlb dans le forum Langage
    Réponses: 2
    Dernier message: 09/09/2003, 12h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo