Bonjour à tous,
Je suis confronté à une problématique de Data Cleaning / Data Selection.
J’ai accès à une grande base de données avec un grand nombre de variable (i.e. des centaines de colonnes) sur SAP BW et très peu de documentation. Afin de repartir sur de bonnes bases, j’essaie de faire le tri dans ces variables et de repérer celles qui sont encore utiles à ce jour.
Ma méthode actuelle pour faire ce travail est trop lente : je charge sur Power BI mes données et je regarde une par une les variables pour voir ce qu’il y a dedans. Certes cela a l’avantage d’avoir toujours un avis critique sur la variable que j’examine, mais ce processus est très long. J’ai besoin d’avoir au moins un premier tri grossier.
C’est pourquoi je suis à la recherche d’une techno qui pourrait m’aider à rapidement m’indiquer quelles sont les variables pertinentes dans un grand jeu de données. Au minimum pour m’indiquer celles qui ne sont pas vides, au mieux pour me montrer des liens entre des variables comme des doublons ou des corrélations.
Je suis très intéressé par toutes vos bonnes pratiques pour ce type d’exploration de données !