Bonsoir à tous,
L'algorithme forêts aléatoires (Random Forests) de Breiman est actuellement l'un des algorithmes les plus performants du moment. Il a été démontré que plus le nombre d'arbres augmente, plus cela converge toujours vers un résultat donné. i.e avoir 59 ou 200 arbres dans la même forêt va au final aboutir au même résultat.
Je sais qu'il est existe plusieurs papiers qui ont parlé de réduction de ce nombre d'arbres pour obtenir ce qu'on appellerait le nombre d'arbres optimal. Ces mêmes papiers ont prouvé (expérimentalement ou via des méthodes mathématiques comme celle de McNemar) que les résultats obtenus étaient similaires voire supérieurs à ceux obtenus par un grand nombre d'arbres.
Ma question est simple, auriez-vous une idée ou un document qui parle de si ces forêts aléatoires "réduites" couvrent l'ensemble des règles des arbres produits?
Exemple : j'ai une forêt aléatoire de 30 arbres. Le total des règles de ces 30 arbres est égal à 140 (si x et y alors z / si x' et y alors z' / etc...). Est-ce qu'avoir une forêt aléatoire de 10 arbres avec 40 règles uniquement pourrait éventuellement couvrir les 140 précédemment générées? (Sachant que j'obtiens à la fin les mêmes résultats).
Merci!
Partager