Bonjour,
J'ai un jeu de données de 23000 individus *34 variables, j'ai d'abord réduit le nombre de mes variables (=12) et j'ai pris un échantillon de 7000 individus pour pouvoir faire une CAH sur R. Mon échantillon est parfaitement représentatif de la population, cependant je me pose certaines questions.
- Pourrais-je obtenir un arbre de décision similaire pour plusieurs échantillons tirés ?
- Ma taille d'échantillon est-elle "bonne" ? (j'ai pris environ 30% de mon jeu)
- Comment pourrais-je placer mes individus de tout mon jeu de données dans mes classes créées grâce à la CAH ?
Cordialement.
Partager