Bonjour,
Pour commencer mes données sont de cette structure :
Je dois prédire la colonne pred grâce à ma colonne var_char.
var_char pred bonjour à tous 1
J'ai donc décomposé ma colonne var_char avec la méthode TF_IDF ce qui me donne :
boujour à tous pred poids_bonjour poids_à poids_tous 1
J'ai donc créer un modèle de classification avec un Random Forest de la librairie(RandomForest) :
Jusque là tout va bien !!
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 fit<- randomForest(pred~ ., data = data, ntree = ntree)
Le but d'avoir un modèle serait de prédire pour de nouvelles entrées la colonne pred donc voici ma nouvelle donnée :
var_char à tous
ce qui me donne après la décomposition avec la méthode TF-IDF :
à tous poids_à poids_tous
Et nous voici enfin à mon problème...
ce qui me laisse bien évidemment un message d'erreur qui sera
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 predictions <- predict(fit, newdata = newdata)
Je voudrais savoir si vous avez une idée afin de pouvoir donner à ma nouvelle donnée une colonne 'bonjour' avec comme poids 0 sachant qu'elle n'apparait pas dans la colonne var_char.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 Error in eval(predvars, data, env) : object 'bonjour' not found
Et aussi inversement c'est à dire si j'ai des données en plus dans les nouvelles que je n'avais pas dans le modèle d'entrainement.
Bonne journée.
Partager