[RStudio] prédiction données avec mots inconnus du modèle #TF-IDF #RandomForest
Salut,
Nouveau problème aujourd'hui
J'ai créé un modèle de prédiction avec RandomForest pour classifier mes individus en fonction d'un texte, grâce à la méthode TF-IDF.
Se faisant je voulais le tester sur mes nouvelles données.
Code:
1 2
|
predictions <- predict(modele, newdata = new_data) |
et je me retrouve avec ce message d'erreur :
Code:
1 2 3
|
Error in predict.randomForest(modele, newdata = new_data) :
Type of predictors in new data do not match that of the training data. |
Ok jusqu'à la c'est un problème normal. Pour le résoudre j'ai donc regardé la structure de mes données d'entrainement pour la comparer à celle de mon test. Mais c'est là que ça devient intéressant :
VARIABLES DU MODELE
Code:
1 2 3 4 5 6
|
'data.frame': 750 obs. of 1000 variables:
$ var1 : num 0 0 0 0 0 0 0 0 0 0 ...
$ var2 : num 0 0 0 0 0 0 0 0 0 0 ...
$ var3 : num 0 0 0 0 0 0 0 0 0 0 ...
$ pred : Factor w/ 152 levels : 1 152 53 90 104 118 118 5 105 8 ... |
VARIABLES DES NOUVELLES DONNEES :
Code:
1 2 3 4 5 6
|
'data.frame': 2 obs. of 1000 variables:
$ var1 : num 0 0
$ var2 : num 0 0
$ var3 : num 0 0
$ pred : Factor w/ 1 levels : NA NA |
Auriez-vous quelques idées ??
J'ai déjà essayé:
- De supprimer la variable à prédire de mes nouvelle données.
- De mettre des NA à la variable à prédire pour les deux nouveaux individus (voir ci-dessus)
- De mettre une valeur quelconque
Ou peut-être le problème vient -il tout simplement d'autre part, je vous laisse juger.