Bonjour à tous
Le débat http://www.developpez.net/forums/d99...roisee-k-plis/ étant très enrichissant, j'espère retrouver les mêmes intervenants même si c'est avec un retard énorme.
Dans un grand jeu de données, le cadre des données déséquilibrées est très intéressant, seriez-vous, alors, pour une division de l'ensemble des données en 3 (apprentissage, validation, test), pour un k-fold ou du bootstrap, ...?
Autre point important, comment construire les sous-échantillons (mise à part la question de leurs nombres) : seriez-vous pour une construction à partir d'un choix aléatoire sur l'ensemble des données pris dans sa totalité ou plutôt par une double sélection aléatoire s'opérant en parallèle sur les deux parties "minoritaire" et "majoritaire" des données (encore faut-il voir dans quelle proportions)?
Espérant trouver des éléments de réponse.
Partager