IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

Réduction du nombre d'arbres dans forêts aléatoires


Sujet :

Méthodes prédictives

  1. #1
    Membre du Club
    Inscrit en
    Juillet 2008
    Messages
    164
    Détails du profil
    Informations forums :
    Inscription : Juillet 2008
    Messages : 164
    Points : 43
    Points
    43
    Par défaut Réduction du nombre d'arbres dans forêts aléatoires
    Bonsoir à tous,

    L'algorithme forêts aléatoires (Random Forests) de Breiman est actuellement l'un des algorithmes les plus performants du moment. Il a été démontré que plus le nombre d'arbres augmente, plus cela converge toujours vers un résultat donné. i.e avoir 59 ou 200 arbres dans la même forêt va au final aboutir au même résultat.

    Je sais qu'il est existe plusieurs papiers qui ont parlé de réduction de ce nombre d'arbres pour obtenir ce qu'on appellerait le nombre d'arbres optimal. Ces mêmes papiers ont prouvé (expérimentalement ou via des méthodes mathématiques comme celle de McNemar) que les résultats obtenus étaient similaires voire supérieurs à ceux obtenus par un grand nombre d'arbres.

    Ma question est simple, auriez-vous une idée ou un document qui parle de si ces forêts aléatoires "réduites" couvrent l'ensemble des règles des arbres produits?

    Exemple : j'ai une forêt aléatoire de 30 arbres. Le total des règles de ces 30 arbres est égal à 140 (si x et y alors z / si x' et y alors z' / etc...). Est-ce qu'avoir une forêt aléatoire de 10 arbres avec 40 règles uniquement pourrait éventuellement couvrir les 140 précédemment générées? (Sachant que j'obtiens à la fin les mêmes résultats).

    Merci!

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Au détail près qu'il y a aussi le nombre de variable à prendre par arbre qu'il faut déterminer.
    Breiman disait qu'il fallait tester et s'arrêter lors d'une "convergence raisonnable", c'est-à-dire "débrouilles toi camarade".
    Après, quelque soit le papier, je pense qu'une forêt réduite sera toujours "optimale" selon une erreur donnée <=> "ma forêt à X% de performance en moins mais comporte Y fois moins d'arbres".
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  3. #3
    Membre du Club
    Inscrit en
    Juillet 2008
    Messages
    164
    Détails du profil
    Informations forums :
    Inscription : Juillet 2008
    Messages : 164
    Points : 43
    Points
    43
    Par défaut
    Si nous mettons de côté les variables (les mêmes pour les forêts (réduites ou pas)), peut-on parler de couverture "optimale" pour les forêts réduites?

  4. #4
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Citation Envoyé par blackmisery Voir le message
    Si nous mettons de côté les variables (les mêmes pour les forêts (réduites ou pas)), peut-on parler de couverture "optimale" pour les forêts réduites?
    On mon avis c'est toujours à une erreur près.
    Maintenant je ne me suis pas penché sur ces articles, seulement celui de Breiman.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  5. #5
    Membre expérimenté
    Homme Profil pro
    Chercheur
    Inscrit en
    Mars 2010
    Messages
    1 218
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Chercheur

    Informations forums :
    Inscription : Mars 2010
    Messages : 1 218
    Points : 1 685
    Points
    1 685
    Par défaut
    Bonsoir,

    je n'ai pas de réponse théorique à donner mais tu peux déjà tester quelques cas par toi-même en tentant de simplifier les expressions booléennes associées à tes arbres à l'aide d'un algorithme.

    EDIT : intuitivement, je dirais que tes expressions vont correspondre pour un volume défini par une équation f(X1,...,Xp)=0, Xi désignant la ie variable explicative, mais jamais pour R^p entier. Et vu qu'en pratique tu ne sais pas définir la population dont sont issus tes échantillons, tu vas difficilement pouvoir répondre à ta question. En revanche, si tu te places dans un cas académique où tu te donnes une population de départ, tu devrais pouvoir montrer un comportement asymptotique des RF et peut-être même démontrer deux trois petites choses pour des situations simples.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. nombre de motifs dans un arbre
    Par Melinda07 dans le forum Débuter
    Réponses: 4
    Dernier message: 23/12/2012, 22h16
  2. Calcul nombre de feuille dans un arbre binaire
    Par Etoile_ dans le forum Débuter avec Java
    Réponses: 4
    Dernier message: 09/02/2012, 00h07
  3. [CR]nombre de jours dans un mois donné
    Par liberio dans le forum Formules
    Réponses: 2
    Dernier message: 20/04/2004, 17h54
  4. Réponses: 2
    Dernier message: 02/03/2004, 20h38
  5. recherche du nombre d'occurences dans une table
    Par berry dans le forum Requêtes
    Réponses: 3
    Dernier message: 09/01/2004, 21h03

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo