Bonjour,
Les données de ma table proviennent d'une liaison assez complexe et dont je n'ai pas connaissance des critères de sélection.
Pour chaque client de ma table je me trouve avec une ou plusieurs modalités pour une variable en particulier. Une seule de ces modalités est la bonne mais je n'ai aucun moyen de l'identifier.
Le nombre de lignes uniques est plus important que celui de lignes multiples.
Afin de faire mes analyses (acp, k-means, ach ...), je ne sais pas quel choix faire.
- ignorer les données en double et faire les analyses sur les la partie nettoyée (qui représente 85% des lignes)
- faire des tests de comparaison de l'échantillon propre et celui qui est en doublons. Et dans ce cas, quels tests il faut faire
- supprimer la variable incriminé de la partie non nettoyée et les considérer comme données manquantes
- ...
merci pour votre aide
Partager