Variables qualitatives et quantitatives + imputation des données manquantes
Bonjour,
Je possède un jeu de données composé de variables qualitatives ainsi que de variables quantitatives. Cependant il possède des données manquantes.
J'ai alors décidé de commencer par mettre les variables qualitatives en plusieurs variables binaires à l'aide de la fonction pandas.get_dummies pour ensuite appliquer une méthode d'imputation sklearn.impute.IterativeImputer. Cependant je remarque que, dès la transformation en dummies, pour les individus présentant une donnée manquante à une certaine variable qualitative "C", les variables binaires associées "C1", "C2" et "C3" ont toutes pris la valeur 0 et non une valeur Nan.
De plus, même si le problème précédent finit par être réglé, je ne sais pas si la méthode d'imputation va permettre une bonne imputation de ces variables qualitatives (ie du groupe de variables binaires correspondant).
C'est la première fois que je dois régler la présence de données manquantes, et consciente que c'est une étape importante, j'ai besoin de votre aide. Je vous remercie d'avance pour vos réponses :)
c'est difficile de t'aider
Bonjour,
Je ne suis pas certain de comprendre le problème, et au vu du nombre de réponses, je dois pas être le seul :ptdr:
De ce que j'ai cru comprendre, tu connais certains éléments d'une suite mais pas tous. Le but serai de trouver une valeur numérique aux éléments inconnus?
Si je suis à côté de la plaque, tente une autre formulation, peut être en insérant du code et en expliquant le but de la manœuvre, cela devrai nous aider à comprendre. En tous cas en ce qui me concerne...