Datawarehouse & Datamining

**ababomarocaini** · 15/07/2013, 14h57

bonjour tout le monde s'il vous plais aidez moi

.
j'ai un projet en Datawarehouse & Datamining je cherche une méthodologie pour travailler j'ai 38 fichiers Excel et chaque fichier contient entre 1 et 5 feuilles

le contenu de ces fichiers sont pas bien structurées (pas nettoyer) voici le cahier des charges :
L’objectif de ce projet est de construire un hypercube permettant d’exploiter intelligemment les résultats de la MIAGE de l’université de Lorraine. Pour ce faire, vous disposez de données réelles provenant des résultats du jury des années précédentes. La MIAGE est composée de quatre années : L2 (Iup1 ou Deug), L3 IUP2 ou licence), M1 (IUP3 ou maîtrise) et M2 (DESS). Deux spécialités sont proposées en M2 : ACSI (Audit et Conception de Système d’Information) et SID (Système d’Information distribués). On souhaite également intégrer les formations de la MIAGE de Nancy au Maroc. Les deux spécialités sont délocalisées, SID à l’IGA et ACSI à l’ENITE.
Les programmes et la structuration de l’année ont changé à la rentrée 2005-2006 (passage au LMD entraînant un jury semestriel, transformation des modules en UE, modification des coefficients, etc). Tous ces points doivent être pris en compte dans la construction.
L’hypercube doit permettre une navigation selon plusieurs dimensions : module, matière, etc. Les mesures sont à identifier. La dimension temps doit être découpée au moins en semestres et années. Il y a en général deux sessions : juin et septembre. Il est à signaler que les programmes de la MIAGE changent régulièrement, il faudra donc en tenir compte. Des statistiques de tout type doivent être présentées.
On vous demande de proposer une modélisation en étoile du cube

Une fois le cube construit, nous voudrions analyser les résultats. Pour ce faire nous utiliserons la méthode des K-means et des arbres de décisions. Au moins deux objectifs sont recherchés :
1/ Trouver des groupes d’étudiants ayant des résultats similaires.
2/ Trouver les matières proches qui permettraient de constituer des unités d’enseignement homogènes.

Ces objectifs ne sont pas les seuls, mettez-vous à la place du décideur et proposer des anlyses différentes.
Pour la méthode des K-means plusieurs tests sont à faire en faisant varier K dans l’ensemble ={2, 3, 4, 6, 7, 10}.

**cedrickb** · 15/07/2013, 18h16

Bonjour,

Voici les premières étapes:
1. Identifier le besoin :
- Quels sont les indicateurs à suivre ?
- Quelles sont les axes d'analyses (ou dimensions)?
Pour cette étape, il faut réfléchir de manière fonctionnelle c'est à dire "métier". Ne prend pas en compte la structure technique des fichiers excel mais visualise les informations que tu peux utiliser.
D'après l'énoncé je peux déjà dire qu'il y aura:

dimension temps
dimension Année_Miage (deug, licence...)
dimension Eleve, à toi de trouver les autres

2. Une fois le besoin identifié, tu pourras modéliser ton DWH par rapport à ce que tu as fait à l'étape 1.

3. Alimentation du DWH à partir de tes fichiers excel en source.

4. Création du cube

5. Exploitation du cube

**lelensois16** · 16/07/2013, 09h45

Quelques infos en plus par rapport aux informations précédentes :

- distingue bien les faits et les dimensions. En gros, un fait est une valeur mesurable (ex: la note) qu'on peut analyser en fonction d'une axe d'analyse (dimension). Ici, on préconise une modélisation en étoile donc l'analyse est globalement simple.
Je te conseille de faire une liste de mot/entités du métier et d'en faire une schématisation. Le but est de faire un schéma qui reprend l'essentiel du fonctionnement des MIAGE.
-n'oublie pas les règles de gestion !
- après le processus "pseudo-ETL" réalisé, le datamining sera assez basique. Le but des 2 méthodes cités étant de déterminer des groupes homogènes.

La question est aussi de savoir si tu fais tout ça avec quel outil ?

**ababomarocaini** · 01/08/2013, 08h08

Bonjour cedrickb ,lelensois16
d'abord je vous remercie pour votre aide

c'est grave a vous repenses j’arrive a comprendre ce que vais faire

bon je viens d'extraire les faits( notes) et les dimensions(temps
,Année_Miage (Iup1 ou Deug, L3 IUP2 ou licence, M1 IUP3 ou maîtrise) et M2 (DESS) soit M2 spécialité ACSI ou M2 spécialité SID) ).

pour modélisation en étoile
j'ai réalisé la structure de ma base de donnée sous Access
contenant les tableau suivants :
Etudiant
Matière
Module
Session
.
.
.
je veux alimenter ces tableaux avec les données des fichiers excel que j'ai.
cependant j'ai un conflit :
par exemple j'ai la table Etudiant contenant (id_itudiant,nom,prenom) malheureusement j'ai pas de fichier Excel Etudiant par contre j'ai la feuille INFO (c'est un module) contenant (nom,prenom,algo,rmde,c).ça d'une part
d'autre part
mon oncle il m'a proposé une autre méthode c'est je vais créer pour chaque feuille d'un fichier Excel une table sous Access comme suit :
dans une base Access importer--> fichier Excel-->donner le chemin du fichier-->choisir le fichier -->choisir une feuille. et la table se crée. mais j'ai rendu compte que c'est un mauvaise solution car j'ai dans le premier fichier (deug) 6 module c'est-a-dire je vais créer 6 tableaux !!!

ce qui est pas possible car je vais avoir 36*6 tableaux ?! pour chaque feuille une table !!
je sais pas quoi faire

**cedrickb** · 01/08/2013, 10h37

Bonjour,

Je vois que ça a bien avancé!
Alors je vais présenter le principe pour une dimension, ce principe devra être appliqué à toutes les dimensions à alimenter.
Donc, pour ta dimension Etudiant (id_itudiant,nom,prenom) il faut que tu cherches dans ta source de données (ton fichier excel) ou tu vas trouver les informations sur le nom et prénom des étudiants.
Si tu retrouves dans ta feuille INFO les données sur les étudiants et nulle part ailleurs, cette feuille va etre ta source de données principale pour ta dimension. Il faut donc partir de cette feuille.

La source de données étant identifiée il faut maintenant préparer les informations, c'est à dire ne prendre que les colonnes qui t'intéressent (nom et prénom) et s'assurer qu'ils aient bien tous la même présentation (nom en majuscule, prénom avec première lettre en majuscule par ex), et qu'il n'y a pas de doublons.
Tu dois avoir au final une liste de tous les étudiants, de la forme NOM Prenom sans doublon que tu peux intégrer à ta base accèss. Pour la PK tu peux générer une pk automatique.
Si tu as bien préparer ton nouveau fichier excel "Etudiant" tu peux l'importer directement dans access .

J'ai insisté sur la même présentation des données Etudiant (majuscule tout ça) car la qualité des données est quelque chose d'essentiel dans un projet BI!

Donc pour résumer:
1. Identifier ou sont les données dans ton fichier
2. Préparer les données par dimension
3. Intégrer ces données dans ta base access.

Hesites pas si tu as des questions

++ & bon courage

**ababomarocaini** · 01/08/2013, 19h07

Bonjour Monsieur cedrickb,
je veux vous donné une idée sur mes fichiers

j'ai dans le fichier DEUG six feuille chaque feuille porte le nom d'un module
le module il meme est composé d'une liste d'etudiant ainsi leurs notes pour chaque matiere constituant le module

la feuille RES contient la meme liste des etudiant mais cette fois c'est pas un module cette feuille affiche la liste des etudiant ainsi leurs notes dans les module(la somme des note pour chaque matiere d'un module /la somme des matieres constituant le model) ,la moyenne,le resultat,et en fin la mention

(en faite c'est comme une redandance mais le prof nous dit que chaque donnée a son importance il faux pas eliminé que ce soit )
la feuille sheet c'est bultin de notes pour tous les etudiants contient toutes les données liste etudiant les modules les matieres

NB : la liste des etudiants d'un niveau (DEUG par exemple ) reste la meme pour les autres modules (feuilles) ce qui est logique

Datawarehouse & Datamining

Statistiques, Data Mining et Data Science

Vue hybride

Discussions similaires

Partager

Partager