Arbre de régression - Interprétation de la variance
Bonjour à toutes / tous,

J'ai une question concernant les arbres de régression. Je précise que je suis super-noob (je viens de commencer mon cours de data-mining)
Donc voila j'ai un jeu de données qui est très petit (28 obs)
La question est la suivante :
En vous basant sur les données présentées, nous vous demandons de trouver la première variable importante dans de prédire la variable « Dépense ». Plus précisément, nous vous demandons de déterminer quelle sera la première variable à utiliser entre les variables « Provenance », « Age » et « Sexe ». L’idée est de calculer la moyenne de notre variable à expliquer pour chacune des modalités respectives à leurs variables explicatives. Ensuite, nous vous demandons de calculer la variance pour chaque modalité d’une variable et d’additionner ces variances de toutes les modalités de la variable. Vous aurez alors « une somme de variance par modalité » pour chaque variable explicative et vous devrez choisir celle qui en possède la plus petite. Pour créer les modalités de la variable « âge », nous vous demandons de vous baser sur la médiane de la table de données. La médiane sera donc le point de coupure pour cette variable explicative continue. Après avoir choisi la première variable importante, veuillez donner une interprétions pour chaque modalité.

J'ai suivi la consigne et j'ai donc calculé la variance pour chaque modalité de chaque variable:
Provenance Varp of Depense
Montréal 815 596,010000
Québec 452 000,090000
Toronto 1 265 126,750000

Sexe Varp of Depense
F 1 175 163,076389
H 775 272,746094

Age Varp of Depense
Age < 29,5 Ans 646 639,387755
Age >= 29,5 Ans 1 145 934,979592


Le problème c'est la partie interprétation de la variance. D'après ce que j'ai pu comprendre en cherchant, plus la variance est petite à l'intérieur d'une feuille de mon arbre, plus mon groupe est homogène (indice d'impureté faible) plus la prédiction est juste (diminution du taux d'erreur). En gros c'est un peu le même principe que pour le clustering.

En supposant que j'ai bien compris jusqu'ici, comment interpréter la variance de chaque modalité? Ou alors faut il faire un autre calcul avant de pouvoir donner une interprétation?


Merci beaucoup pour votre aide