Bonjour,
Pour commencer mes données sont de cette structure :


var_char pred
bonjour à tous 1
Je dois prédire la colonne pred grâce à ma colonne var_char.
J'ai donc décomposé ma colonne var_char avec la méthode TF_IDF ce qui me donne :

boujour à tous pred
poids_bonjour poids_à poids_tous 1

J'ai donc créer un modèle de classification avec un Random Forest de la librairie(RandomForest) :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
 
fit<- randomForest(pred~ ., data = data, ntree = ntree)
Jusque là tout va bien !!

Le but d'avoir un modèle serait de prédire pour de nouvelles entrées la colonne pred donc voici ma nouvelle donnée :
var_char
à tous

ce qui me donne après la décomposition avec la méthode TF-IDF :
à tous
poids_à poids_tous

Et nous voici enfin à mon problème...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
 
predictions <- predict(fit, newdata = newdata)
ce qui me laisse bien évidemment un message d'erreur qui sera
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
 
Error in eval(predvars, data, env) : object 'bonjour' not found
Je voudrais savoir si vous avez une idée afin de pouvoir donner à ma nouvelle donnée une colonne 'bonjour' avec comme poids 0 sachant qu'elle n'apparait pas dans la colonne var_char.
Et aussi inversement c'est à dire si j'ai des données en plus dans les nouvelles que je n'avais pas dans le modèle d'entrainement.

Bonne journée.