Bonjour,
Je possède un jeu de données composé de variables qualitatives ainsi que de variables quantitatives. Cependant il possède des données manquantes.
J'ai alors décidé de commencer par mettre les variables qualitatives en plusieurs variables binaires à l'aide de la fonction pandas.get_dummies pour ensuite appliquer une méthode d'imputation sklearn.impute.IterativeImputer. Cependant je remarque que, dès la transformation en dummies, pour les individus présentant une donnée manquante à une certaine variable qualitative "C", les variables binaires associées "C1", "C2" et "C3" ont toutes pris la valeur 0 et non une valeur Nan.
De plus, même si le problème précédent finit par être réglé, je ne sais pas si la méthode d'imputation va permettre une bonne imputation de ces variables qualitatives (ie du groupe de variables binaires correspondant).
C'est la première fois que je dois régler la présence de données manquantes, et consciente que c'est une étape importante, j'ai besoin de votre aide. Je vous remercie d'avance pour vos réponses![]()
Partager