Bonsoir à tous,

Je vais poser une question qui n'a probablement pas de réponse, mais je tente tout de même

Comme tout bon thésard que je suis, j'ai procédé à des tests empiriques sur des échantillons qui ont révélé que les forêts aléatoires, de la famille des méthodes par ensemble, étaient meilleurs que les autres algorithmes de classification "connus" en terme de classification.

Maintenant, toujours en bon thésard, je cherche à justifier "théoriquement" ce choix.

Autrement dit, étape 1 : Pourquoi choisir les méthodes par ensemble au lieu des SVM? des arbres de décision? Des réseaux de neurones?

étape 2 : Pourquoi choisir les forêts aléatoires au lieu du Boosting? Du Bagging? d'Adaboost?

Je sais qu'aucun algorithme n'est meilleur qu'un autre, tout dépend du problème (ou des échantillons) à traiter.

Donc si je dis que j'ai, en tout :

127 échantillons
12 caractéristiques par échantillons
3 classes


Auriez-vous des pistes que je puisse suivre pour faire mon petit comparatif? Du genre, (je dis n'importe quoi) : les méthodes par ensemble sont connues pour leurs performances sur un ensemble de données de petite taille - les réseaux de neurones ont une complexité de calcul importante quand le nombre de caractéristiques est faible etc.

Toute piste serait la bienvenue!

Merci