Salut à tous.
Pour utiliser des algorithmes de classification automatique tels que k-NN, HMM, ANN, etc., il faut avoir préalablement des ensembles d’apprentissage, de test et parfois de validation. Ces ensembles ne doivent avoir aucun chevauchement entre eux. Cela permet de garantir un bon jugement sur l’efficacité des algorithmes testés sur la base de ces ensembles.
Ma question concerne le cas où les données de test ne sont pas suffisantes en nombre pour être découpées ou qu’elles ne soient pas préalablement séparées en apprentissage/test/validation. Quelqu’un m’a dit qu’il est possible de générer des données synthétiques à partir des données initiales pour les utiliser comme ensembles d’apprentissage et de validation. Est-ce que cette démarche est correcte méthodologiquement ? Si c’est le cas, y-a-t-il des travaux reconnus utilisant cette démarche ?
Merci.
Partager