bonjour tout le monde s'il vous plais aidez moi .
j'ai un projet en Datawarehouse & Datamining je cherche une méthodologie pour travailler j'ai 54 fichiers Excel et chaque fichier contient entre 1 et 8 feuilles
le contenu de ces fichiers sont pas bien structurées (pas nettoyer) voici le cahier des charges :
L’objectif de ce projet est de construire un hypercube permettant d’exploiter intelligemment les résultats de la MIAGE de l’université de Lorraine. Pour ce faire, vous disposez de données réelles provenant des résultats du jury des années précédentes. La MIAGE est composée de quatre années : L2 (Iup1 ou Deug), L3 IUP2 ou licence), M1 (IUP3 ou maîtrise) et M2 (DESS). Deux spécialités sont proposées en M2 : ACSI (Audit et Conception de Système d’Information) et SID (Système d’Information distribués). On souhaite également intégrer les formations de la MIAGE de Nancy au Maroc. Les deux spécialités sont délocalisées, SID à l’IGA et ACSI à l’ENITE.
Les programmes et la structuration de l’année ont changé à la rentrée 2005-2006 (passage au LMD entraînant un jury semestriel, transformation des modules en UE, modification des coefficients, etc). Tous ces points doivent être pris en compte dans la construction.
L’hypercube doit permettre une navigation selon plusieurs dimensions : module, matière, etc. Les mesures sont à identifier. La dimension temps doit être découpée au moins en semestres et années. Il y a en général deux sessions : juin et septembre. Il est à signaler que les programmes de la MIAGE changent régulièrement, il faudra donc en tenir compte. Des statistiques de tout type doivent être présentées.
On vous demande de proposer une modélisation en étoile du cube
Une fois le cube construit, nous voudrions analyser les résultats. Pour ce faire nous utiliserons la méthode des K-means et des arbres de décisions. Au moins deux objectifs sont recherchés :
1/ Trouver des groupes d’étudiants ayant des résultats similaires.
2/ Trouver les matières proches qui permettraient de constituer des unités d’enseignement homogènes.
Ces objectifs ne sont pas les seuls, mettez-vous à la place du décideur et proposer des anlyses différentes.
Pour la méthode des K-means plusieurs tests sont à faire en faisant varier K dans l’ensemble ={2, 3, 4, 6, 7, 10}.
je veux vous donné une idée sur mes fichiers
j'ai dans le fichier DEUG six feuille chaque feuille porte le nom d'un module
le module il meme est composé d'une liste d'etudiant ainsi leurs notes pour chaque matiere constituant le module
la feuille RES contient la meme liste des etudiant mais cette fois c'est pas un module cette feuille affiche la liste des etudiant ainsi leurs notes dans les module(la somme des note pour chaque matiere d'un module /la somme des matieres constituant le model) ,la moyenne,le resultat,et en fin la mention
(en faite c'est comme une redandance mais le prof nous dit que chaque donnée a son importance il faux pas eliminé que ce soit )
la feuille sheet c'est bultin de notes pour tous les etudiants contient toutes les données liste etudiant les modules les matieres
NB : la liste des etudiants d'un niveau (DEUG par exemple ) reste la meme pour les autres modules (feuilles) ce qui est logique
Merci beaucoup
Partager