Réduction du nombre d'arbres dans forêts aléatoires

**blackmisery** · 21/10/2012, 22h02

Bonsoir à tous,

L'algorithme forêts aléatoires (Random Forests) de Breiman est actuellement l'un des algorithmes les plus performants du moment. Il a été démontré que plus le nombre d'arbres augmente, plus cela converge toujours vers un résultat donné. i.e avoir 59 ou 200 arbres dans la même forêt va au final aboutir au même résultat.

Je sais qu'il est existe plusieurs papiers qui ont parlé de réduction de ce nombre d'arbres pour obtenir ce qu'on appellerait le nombre d'arbres optimal. Ces mêmes papiers ont prouvé (expérimentalement ou via des méthodes mathématiques comme celle de McNemar) que les résultats obtenus étaient similaires voire supérieurs à ceux obtenus par un grand nombre d'arbres.

Ma question est simple, auriez-vous une idée ou un document qui parle de si ces forêts aléatoires "réduites" couvrent l'ensemble des règles des arbres produits?

Exemple : j'ai une forêt aléatoire de 30 arbres. Le total des règles de ces 30 arbres est égal à 140 (si x et y alors z / si x' et y alors z' / etc...). Est-ce qu'avoir une forêt aléatoire de 10 arbres avec 40 règles uniquement pourrait éventuellement couvrir les 140 précédemment générées? (Sachant que j'obtiens à la fin les mêmes résultats).

Merci!

**ToTo13** · 21/10/2012, 22h34

Au détail près qu'il y a aussi le nombre de variable à prendre par arbre qu'il faut déterminer.
Breiman disait qu'il fallait tester et s'arrêter lors d'une "convergence raisonnable", c'est-à-dire "débrouilles toi camarade".
Après, quelque soit le papier, je pense qu'une forêt réduite sera toujours "optimale" selon une erreur donnée <=> "ma forêt à X% de performance en moins mais comporte Y fois moins d'arbres".

**blackmisery** · 21/10/2012, 22h50

Si nous mettons de côté les variables (les mêmes pour les forêts (réduites ou pas)), peut-on parler de couverture "optimale" pour les forêts réduites?

**ToTo13** · 22/10/2012, 00h19

Envoyé par blackmisery

Si nous mettons de côté les variables (les mêmes pour les forêts (réduites ou pas)), peut-on parler de couverture "optimale" pour les forêts réduites?

On mon avis c'est toujours à une erreur près.
Maintenant je ne me suis pas penché sur ces articles, seulement celui de Breiman.

**Aleph69** · 22/10/2012, 20h21

Bonsoir,

je n'ai pas de réponse théorique à donner mais tu peux déjà tester quelques cas par toi-même en tentant de simplifier les expressions booléennes associées à tes arbres à l'aide d'un algorithme.

EDIT : intuitivement, je dirais que tes expressions vont correspondre pour un volume défini par une équation f(X1,...,Xp)=0, Xi désignant la ie variable explicative, mais jamais pour R^p entier. Et vu qu'en pratique tu ne sais pas définir la population dont sont issus tes échantillons, tu vas difficilement pouvoir répondre à ta question. En revanche, si tu te places dans un cas académique où tu te donnes une population de départ, tu devrais pouvoir montrer un comportement asymptotique des RF et peut-être même démontrer deux trois petites choses pour des situations simples.

Réduction du nombre d'arbres dans forêts aléatoires

Méthodes prédictives

Discussions similaires

Partager

Partager