IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Datawarehouse & Datamining


Sujet :

Statistiques, Data Mining et Data Science

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut Datawarehouse & Datamining
    bonjour tout le monde s'il vous plais aidez moi .
    j'ai un projet en Datawarehouse & Datamining je cherche une méthodologie pour travailler j'ai 38 fichiers Excel et chaque fichier contient entre 1 et 5 feuilles
    le contenu de ces fichiers sont pas bien structurées (pas nettoyer) voici le cahier des charges :
    L’objectif de ce projet est de construire un hypercube permettant d’exploiter intelligemment les résultats de la MIAGE de l’université de Lorraine. Pour ce faire, vous disposez de données réelles provenant des résultats du jury des années précédentes. La MIAGE est composée de quatre années : L2 (Iup1 ou Deug), L3 IUP2 ou licence), M1 (IUP3 ou maîtrise) et M2 (DESS). Deux spécialités sont proposées en M2 : ACSI (Audit et Conception de Système d’Information) et SID (Système d’Information distribués). On souhaite également intégrer les formations de la MIAGE de Nancy au Maroc. Les deux spécialités sont délocalisées, SID à l’IGA et ACSI à l’ENITE.
    Les programmes et la structuration de l’année ont changé à la rentrée 2005-2006 (passage au LMD entraînant un jury semestriel, transformation des modules en UE, modification des coefficients, etc). Tous ces points doivent être pris en compte dans la construction.
    L’hypercube doit permettre une navigation selon plusieurs dimensions : module, matière, etc. Les mesures sont à identifier. La dimension temps doit être découpée au moins en semestres et années. Il y a en général deux sessions : juin et septembre. Il est à signaler que les programmes de la MIAGE changent régulièrement, il faudra donc en tenir compte. Des statistiques de tout type doivent être présentées.
    On vous demande de proposer une modélisation en étoile du cube

    Une fois le cube construit, nous voudrions analyser les résultats. Pour ce faire nous utiliserons la méthode des K-means et des arbres de décisions. Au moins deux objectifs sont recherchés :
    1/ Trouver des groupes d’étudiants ayant des résultats similaires.
    2/ Trouver les matières proches qui permettraient de constituer des unités d’enseignement homogènes.


    Ces objectifs ne sont pas les seuls, mettez-vous à la place du décideur et proposer des anlyses différentes.
    Pour la méthode des K-means plusieurs tests sont à faire en faisant varier K dans l’ensemble ={2, 3, 4, 6, 7, 10}.

  2. #2
    Membre éprouvé
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Février 2004
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Février 2004
    Messages : 131
    Par défaut
    Bonjour,

    Voici les premières étapes:
    1. Identifier le besoin :
    - Quels sont les indicateurs à suivre ?
    - Quelles sont les axes d'analyses (ou dimensions)?
    Pour cette étape, il faut réfléchir de manière fonctionnelle c'est à dire "métier". Ne prend pas en compte la structure technique des fichiers excel mais visualise les informations que tu peux utiliser.
    D'après l'énoncé je peux déjà dire qu'il y aura:
    • dimension temps
    • dimension Année_Miage (deug, licence...)
    • dimension Eleve, à toi de trouver les autres

    2. Une fois le besoin identifié, tu pourras modéliser ton DWH par rapport à ce que tu as fait à l'étape 1.

    3. Alimentation du DWH à partir de tes fichiers excel en source.

    4. Création du cube

    5. Exploitation du cube

  3. #3
    Membre émérite
    Homme Profil pro
    Ingénieur Pilotage
    Inscrit en
    Avril 2009
    Messages
    405
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Ingénieur Pilotage
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2009
    Messages : 405
    Par défaut
    Quelques infos en plus par rapport aux informations précédentes :

    - distingue bien les faits et les dimensions. En gros, un fait est une valeur mesurable (ex: la note) qu'on peut analyser en fonction d'une axe d'analyse (dimension). Ici, on préconise une modélisation en étoile donc l'analyse est globalement simple.
    Je te conseille de faire une liste de mot/entités du métier et d'en faire une schématisation. Le but est de faire un schéma qui reprend l'essentiel du fonctionnement des MIAGE.
    -n'oublie pas les règles de gestion !
    - après le processus "pseudo-ETL" réalisé, le datamining sera assez basique. Le but des 2 méthodes cités étant de déterminer des groupes homogènes.

    La question est aussi de savoir si tu fais tout ça avec quel outil ?

  4. #4
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut
    Bonjour cedrickb ,lelensois16
    d'abord je vous remercie pour votre aide
    c'est grave a vous repenses j’arrive a comprendre ce que vais faire

    bon je viens d'extraire les faits( notes) et les dimensions(temps
    ,Année_Miage (Iup1 ou Deug, L3 IUP2 ou licence, M1 IUP3 ou maîtrise) et M2 (DESS) soit M2 spécialité ACSI ou M2 spécialité SID) ).

    pour modélisation en étoile
    j'ai réalisé la structure de ma base de donnée sous Access
    contenant les tableau suivants :
    Etudiant
    Matière
    Module
    Session
    .
    .
    .
    je veux alimenter ces tableaux avec les données des fichiers excel que j'ai.
    cependant j'ai un conflit :
    par exemple j'ai la table Etudiant contenant (id_itudiant,nom,prenom) malheureusement j'ai pas de fichier Excel Etudiant par contre j'ai la feuille INFO (c'est un module) contenant (nom,prenom,algo,rmde,c).ça d'une part
    d'autre part
    mon oncle il m'a proposé une autre méthode c'est je vais créer pour chaque feuille d'un fichier Excel une table sous Access comme suit :
    dans une base Access importer--> fichier Excel-->donner le chemin du fichier-->choisir le fichier -->choisir une feuille. et la table se crée. mais j'ai rendu compte que c'est un mauvaise solution car j'ai dans le premier fichier (deug) 6 module c'est-a-dire je vais créer 6 tableaux !!! ce qui est pas possible car je vais avoir 36*6 tableaux ?! pour chaque feuille une table !!
    je sais pas quoi faire

  5. #5
    Membre éprouvé
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Février 2004
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Février 2004
    Messages : 131
    Par défaut
    Bonjour,

    Je vois que ça a bien avancé!
    Alors je vais présenter le principe pour une dimension, ce principe devra être appliqué à toutes les dimensions à alimenter.
    Donc, pour ta dimension Etudiant (id_itudiant,nom,prenom) il faut que tu cherches dans ta source de données (ton fichier excel) ou tu vas trouver les informations sur le nom et prénom des étudiants.
    Si tu retrouves dans ta feuille INFO les données sur les étudiants et nulle part ailleurs, cette feuille va etre ta source de données principale pour ta dimension. Il faut donc partir de cette feuille.

    La source de données étant identifiée il faut maintenant préparer les informations, c'est à dire ne prendre que les colonnes qui t'intéressent (nom et prénom) et s'assurer qu'ils aient bien tous la même présentation (nom en majuscule, prénom avec première lettre en majuscule par ex), et qu'il n'y a pas de doublons.
    Tu dois avoir au final une liste de tous les étudiants, de la forme NOM Prenom sans doublon que tu peux intégrer à ta base accèss. Pour la PK tu peux générer une pk automatique.
    Si tu as bien préparer ton nouveau fichier excel "Etudiant" tu peux l'importer directement dans access .

    J'ai insisté sur la même présentation des données Etudiant (majuscule tout ça) car la qualité des données est quelque chose d'essentiel dans un projet BI!

    Donc pour résumer:
    1. Identifier ou sont les données dans ton fichier
    2. Préparer les données par dimension
    3. Intégrer ces données dans ta base access.

    Hesites pas si tu as des questions

    ++ & bon courage

  6. #6
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut
    Bonjour Monsieur cedrickb,
    je veux vous donné une idée sur mes fichiers
    j'ai dans le fichier DEUG six feuille chaque feuille porte le nom d'un module
    le module il meme est composé d'une liste d'etudiant ainsi leurs notes pour chaque matiere constituant le module

    la feuille RES contient la meme liste des etudiant mais cette fois c'est pas un module cette feuille affiche la liste des etudiant ainsi leurs notes dans les module(la somme des note pour chaque matiere d'un module /la somme des matieres constituant le model) ,la moyenne,le resultat,et en fin la mention



    (en faite c'est comme une redandance mais le prof nous dit que chaque donnée a son importance il faux pas eliminé que ce soit )
    la feuille sheet c'est bultin de notes pour tous les etudiants contient toutes les données liste etudiant les modules les matieres



    NB : la liste des etudiants d'un niveau (DEUG par exemple ) reste la meme pour les autres modules (feuilles) ce qui est logique
    Images attachées Images attachées    

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Projet Datawarehouse & Datamining
    Par info1989 dans le forum Statistiques, Data Mining et Data Science
    Réponses: 0
    Dernier message: 10/04/2015, 16h06
  2. Datawarehouse & Datamining
    Par abenelbaida dans le forum Statistiques, Data Mining et Data Science
    Réponses: 0
    Dernier message: 29/09/2014, 00h00
  3. datamining+datawarehouse en prediction meteo
    Par hyacinthus dans le forum SSAS
    Réponses: 0
    Dernier message: 22/11/2008, 13h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo