[Rstudio] Prédiction avec TF-IDF et RandomForest (Machine Learning avancé)
Bonjour,
Pour commencer mes données sont de cette structure :
var_char |
pred |
bonjour à tous |
1 |
Je dois prédire la colonne pred grâce à ma colonne var_char.
J'ai donc décomposé ma colonne var_char avec la méthode TF_IDF ce qui me donne :
boujour |
à |
tous |
pred |
poids_bonjour |
poids_à |
poids_tous |
1 |
J'ai donc créer un modèle de classification avec un Random Forest de la librairie(RandomForest) :
Code:
1 2
|
fit<- randomForest(pred~ ., data = data, ntree = ntree) |
Jusque là tout va bien !!
Le but d'avoir un modèle serait de prédire pour de nouvelles entrées la colonne pred donc voici ma nouvelle donnée :
ce qui me donne après la décomposition avec la méthode TF-IDF :
à |
tous |
poids_à |
poids_tous |
Et nous voici enfin à mon problème...
Code:
1 2
|
predictions <- predict(fit, newdata = newdata) |
ce qui me laisse bien évidemment un message d'erreur qui sera
Code:
1 2
|
Error in eval(predvars, data, env) : object 'bonjour' not found |
Je voudrais savoir si vous avez une idée afin de pouvoir donner à ma nouvelle donnée une colonne 'bonjour' avec comme poids 0 sachant qu'elle n'apparait pas dans la colonne var_char.
Et aussi inversement c'est à dire si j'ai des données en plus dans les nouvelles que je n'avais pas dans le modèle d'entrainement.
Bonne journée.