|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Membre à l'essai
![]() Inscription : juillet 2008 Messages : 163 ![]() |
Bonsoir à tous,
L'algorithme forêts aléatoires (Random Forests) de Breiman est actuellement l'un des algorithmes les plus performants du moment. Il a été démontré que plus le nombre d'arbres augmente, plus cela converge toujours vers un résultat donné. i.e avoir 59 ou 200 arbres dans la même forêt va au final aboutir au même résultat. Je sais qu'il est existe plusieurs papiers qui ont parlé de réduction de ce nombre d'arbres pour obtenir ce qu'on appellerait le nombre d'arbres optimal. Ces mêmes papiers ont prouvé (expérimentalement ou via des méthodes mathématiques comme celle de McNemar) que les résultats obtenus étaient similaires voire supérieurs à ceux obtenus par un grand nombre d'arbres. Ma question est simple, auriez-vous une idée ou un document qui parle de si ces forêts aléatoires "réduites" couvrent l'ensemble des règles des arbres produits? Exemple : j'ai une forêt aléatoire de 30 arbres. Le total des règles de ces 30 arbres est égal à 140 (si x et y alors z / si x' et y alors z' / etc...). Est-ce qu'avoir une forêt aléatoire de 10 arbres avec 40 règles uniquement pourrait éventuellement couvrir les 140 précédemment générées? (Sachant que j'obtiens à la fin les mêmes résultats). Merci! |
|
|
00
|
|
|
#2 |
![]() ![]() Guillaume Ingénieur de Recherche Inscription : janvier 2006 Messages : 4 782 ![]() |
Au détail près qu'il y a aussi le nombre de variable à prendre par arbre qu'il faut déterminer.
Breiman disait qu'il fallait tester et s'arrêter lors d'une "convergence raisonnable", c'est-à-dire "débrouilles toi camarade". Après, quelque soit le papier, je pense qu'une forêt réduite sera toujours "optimale" selon une erreur donnée <=> "ma forêt à X% de performance en moins mais comporte Y fois moins d'arbres".
__________________
Consignes aux jeunes padawans : une image vaut 1000 mots ! - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe correcteur orthographique pour FiReFox), mettre les ACCENTS et les BALISES => ECRIRE clairement et en Français tu DOIS. - Le coté obscur je sens dans le MP => Tous tes MP je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci) - ton poste tu dois marquer quand la bonne réponse tu as obtenu.
|
|
|
00
|
|
|
#3 |
|
Membre à l'essai
![]() Inscription : juillet 2008 Messages : 163 ![]() |
Si nous mettons de côté les variables (les mêmes pour les forêts (réduites ou pas)), peut-on parler de couverture "optimale" pour les forêts réduites?
|
|
|
00
|
|
|
#4 | |
![]() ![]() Guillaume Ingénieur de Recherche Inscription : janvier 2006 Messages : 4 782 ![]() |
Citation:
Maintenant je ne me suis pas penché sur ces articles, seulement celui de Breiman.
__________________
Consignes aux jeunes padawans : une image vaut 1000 mots ! - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe correcteur orthographique pour FiReFox), mettre les ACCENTS et les BALISES => ECRIRE clairement et en Français tu DOIS. - Le coté obscur je sens dans le MP => Tous tes MP je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci) - ton poste tu dois marquer quand la bonne réponse tu as obtenu.
|
|
|
|
00
|
|
|
#5 |
|
Membre Expert
![]() Chercheur Inscription : mars 2010 Messages : 1 143 ![]() |
Bonsoir,
je n'ai pas de réponse théorique à donner mais tu peux déjà tester quelques cas par toi-même en tentant de simplifier les expressions booléennes associées à tes arbres à l'aide d'un algorithme. EDIT : intuitivement, je dirais que tes expressions vont correspondre pour un volume défini par une équation f(X1,...,Xp)=0, Xi désignant la ie variable explicative, mais jamais pour R^p entier. Et vu qu'en pratique tu ne sais pas définir la population dont sont issus tes échantillons, tu vas difficilement pouvoir répondre à ta question. En revanche, si tu te places dans un cas académique où tu te donnes une population de départ, tu devrais pouvoir montrer un comportement asymptotique des RF et peut-être même démontrer deux trois petites choses pour des situations simples. |
|
|
10
|
Copyright © 2000-2013 - www.developpez.com