IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

[Rstudio] Prédiction avec TF-IDF et RandomForest (Machine Learning avancé)


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Etudiant - Toulouse
    Inscrit en
    Avril 2017
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 28
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Etudiant - Toulouse

    Informations forums :
    Inscription : Avril 2017
    Messages : 57
    Par défaut [Rstudio] Prédiction avec TF-IDF et RandomForest (Machine Learning avancé)
    Bonjour,
    Pour commencer mes données sont de cette structure :


    var_char pred
    bonjour à tous 1
    Je dois prédire la colonne pred grâce à ma colonne var_char.
    J'ai donc décomposé ma colonne var_char avec la méthode TF_IDF ce qui me donne :

    boujour à tous pred
    poids_bonjour poids_à poids_tous 1

    J'ai donc créer un modèle de classification avec un Random Forest de la librairie(RandomForest) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    fit<- randomForest(pred~ ., data = data, ntree = ntree)
    Jusque là tout va bien !!

    Le but d'avoir un modèle serait de prédire pour de nouvelles entrées la colonne pred donc voici ma nouvelle donnée :
    var_char
    à tous

    ce qui me donne après la décomposition avec la méthode TF-IDF :
    à tous
    poids_à poids_tous

    Et nous voici enfin à mon problème...
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    predictions <- predict(fit, newdata = newdata)
    ce qui me laisse bien évidemment un message d'erreur qui sera
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    Error in eval(predvars, data, env) : object 'bonjour' not found
    Je voudrais savoir si vous avez une idée afin de pouvoir donner à ma nouvelle donnée une colonne 'bonjour' avec comme poids 0 sachant qu'elle n'apparait pas dans la colonne var_char.
    Et aussi inversement c'est à dire si j'ai des données en plus dans les nouvelles que je n'avais pas dans le modèle d'entrainement.

    Bonne journée.

  2. #2
    Membre émérite

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Billets dans le blog
    2
    Par défaut
    La méthodologie de la matrice TF-IDF consiste en la création d'une matrice document et terme avec comme valeurs la fréquence.

    Normalement l'ensemble des termes y sont définis pour que celle-ci soit exhaustive.

    Pour cela tu dois construire ta matrice avant de faire ta modélisation.

    Si ce Tutorial peut t'aider.

  3. #3
    Membre averti
    Homme Profil pro
    Etudiant - Toulouse
    Inscrit en
    Avril 2017
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 28
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Etudiant - Toulouse

    Informations forums :
    Inscription : Avril 2017
    Messages : 57
    Par défaut
    Ah mais oui c'est parfait il y a juste besoin de faire une liste de contrôle où je vais supprimer toutes les mots du nouveaux corpus qui ne sont pas dans le corpus de mon jeux d'apprentissage.
    Merci pour ton aide !

    Mano

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 09/07/2018, 13h21
  2. Exception avec comportement différent sur 2 machines
    Par sybaris dans le forum Windows Forms
    Réponses: 0
    Dernier message: 13/03/2009, 10h49
  3. VS 2005 avec VS 2008 sur même machine.
    Par insane_80 dans le forum Visual Studio
    Réponses: 2
    Dernier message: 16/09/2008, 12h37
  4. [Continuum] Lancer un build mais avec un résultat sur une machine distante
    Par bassemeco dans le forum Intégration Continue
    Réponses: 10
    Dernier message: 02/07/2008, 11h19
  5. Réponses: 3
    Dernier message: 07/07/2006, 15h49

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo