[R-Studio 3.5.1] Fusion de deux modèles RandomForest et optimisation de temps

**v4ss73r** · 24/07/2018, 11h18

Salut la commu,

J'ai conçu un outil de prédiction se basant sur les concepts du Machine Learning et notamment avec les méthodes RandomForest.
Tout roule comme je veux, sauf que dans un soucis d'amélioration et pérennité du modèle je cherche à pouvoir augmenter la taille de mon jeu d'entrainement (ajouter des individus) sans avoir à recharger entièrement le modèle. (Temps de traitement trop long !)

J'ai donc deux questions qui permettrai de résoudre mon problème:

Comment ajouter des individus au modèle sans le recharger entièrement ?
Y a t-il un moyen d'améliorer les temps de création de modèles ?

Création du modèle :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
fit_bagging <- randomForest(pred~ ., data = train, ntree=200, na.action=na.roughfix)

Je suis sur des jeux de 2000 individus et 15000 variables.
Problème de classification.

Si quelqu'un pouvait m'aiguiller sur des solutions possibles je prends tous conseils !
Bonne Journée.

Mano

**tototode** · 24/07/2018, 12h06

Bonjour,

Comment ajouter des individus au modèle sans le recharger entièrement ?

Je ne pense pas que ce soit possible. En effet si tu ajoutes des données, les seuils que tu définis pour chaque arbre et chaque variable vont changer.
Je ne suis donc pas convaincu que tu puisses ajouter comme ça des données sans tout ré-estimer.

Y a t-il un moyen d'améliorer les temps de création de modèles ?

Je n'en sais rien, par contre il existe des librairies qui font les calculs des arbres en parallèle ce qui permet d'utiliser plusieurs cœurs de ta machine pour faire les calculs et infine ça réduit le temps de calcul.
Je ne l'ai pas testé mais il existe le package ParallelForest par exemple. Il doit surement en exister d'autres.
Si tu peux accéder à un serveur de calculs ...
Le temps de calcul sera de toute manière conséquent vu le nombre de variables dont tu disposes.

cdlt

**v4ss73r** · 24/07/2018, 14h43

Merci, je m'en doutais un peu pour l'augmentation de la base d'entrainement. Je vais creuser du côté de la package ParallelForest.

Mano

**marou1991** · 24/07/2018, 18h20

Bonjour,

Voilà une façon pour parallélisé le calcul parmi d'autres plus optimale peut être.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
library (snowfall) #N'oublie pas de télécharger le package
sfInit( parallel=TRUE, cpus=4 ) # on parallélise sur 4 cœurs/  
sfLibrary(randomForest) # on charge la librairie  RF sur les 4 coeurs. 
 
fit_bagging <- randomForest(pred~ ., data = train, ntree=200, na.action=na.roughfix)
 
sfStop()

**v4ss73r** · 25/07/2018, 15h14

Merci pour ta réponse j'ai effectivement choisie cette librairie finalement !

**marou1991** · 27/07/2018, 10h13

Une autre façon de faire.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
library(doParallel)
library(foreach)
library(randomForest)
 
cores = detectCores()
cl = makeCluster(cores)
registerDoParallel(cl)
 
startparallel <- Sys.time()
fit_bagging<- foreach(ntree=rep(200, cores), .combine=combine, .multicombine=TRUE,
                       .packages='randomForest') %dopar% {
                        randomForest(pred~ ., data = train, ntree=200, na.action=na.roughfix)
                       }
endparallel <- Sys.time()
stopCluster(cl)
endparallel - startparallel  #Calculer le temps de traitement pour comparer.

[R-Studio 3.5.1] Fusion de deux modèles RandomForest et optimisation de temps

R

Vue hybride

Discussions similaires

Partager

Partager