IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Datawarehouse & Datamining


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut Datawarehouse & Datamining
    bonjour tout le monde s'il vous plais aidez moi .
    j'ai un projet en Datawarehouse & Datamining je cherche une méthodologie pour travailler j'ai 38 fichiers Excel et chaque fichier contient entre 1 et 5 feuilles
    le contenu de ces fichiers sont pas bien structurées (pas nettoyer) voici le cahier des charges :
    L’objectif de ce projet est de construire un hypercube permettant d’exploiter intelligemment les résultats de la MIAGE de l’université de Lorraine. Pour ce faire, vous disposez de données réelles provenant des résultats du jury des années précédentes. La MIAGE est composée de quatre années : L2 (Iup1 ou Deug), L3 IUP2 ou licence), M1 (IUP3 ou maîtrise) et M2 (DESS). Deux spécialités sont proposées en M2 : ACSI (Audit et Conception de Système d’Information) et SID (Système d’Information distribués). On souhaite également intégrer les formations de la MIAGE de Nancy au Maroc. Les deux spécialités sont délocalisées, SID à l’IGA et ACSI à l’ENITE.
    Les programmes et la structuration de l’année ont changé à la rentrée 2005-2006 (passage au LMD entraînant un jury semestriel, transformation des modules en UE, modification des coefficients, etc). Tous ces points doivent être pris en compte dans la construction.
    L’hypercube doit permettre une navigation selon plusieurs dimensions : module, matière, etc. Les mesures sont à identifier. La dimension temps doit être découpée au moins en semestres et années. Il y a en général deux sessions : juin et septembre. Il est à signaler que les programmes de la MIAGE changent régulièrement, il faudra donc en tenir compte. Des statistiques de tout type doivent être présentées.
    On vous demande de proposer une modélisation en étoile du cube

    Une fois le cube construit, nous voudrions analyser les résultats. Pour ce faire nous utiliserons la méthode des K-means et des arbres de décisions. Au moins deux objectifs sont recherchés :
    1/ Trouver des groupes d’étudiants ayant des résultats similaires.
    2/ Trouver les matières proches qui permettraient de constituer des unités d’enseignement homogènes.


    Ces objectifs ne sont pas les seuls, mettez-vous à la place du décideur et proposer des anlyses différentes.
    Pour la méthode des K-means plusieurs tests sont à faire en faisant varier K dans l’ensemble ={2, 3, 4, 6, 7, 10}.

  2. #2
    Membre éprouvé
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Février 2004
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Février 2004
    Messages : 131
    Par défaut
    Bonjour,

    Voici les premières étapes:
    1. Identifier le besoin :
    - Quels sont les indicateurs à suivre ?
    - Quelles sont les axes d'analyses (ou dimensions)?
    Pour cette étape, il faut réfléchir de manière fonctionnelle c'est à dire "métier". Ne prend pas en compte la structure technique des fichiers excel mais visualise les informations que tu peux utiliser.
    D'après l'énoncé je peux déjà dire qu'il y aura:
    • dimension temps
    • dimension Année_Miage (deug, licence...)
    • dimension Eleve, à toi de trouver les autres

    2. Une fois le besoin identifié, tu pourras modéliser ton DWH par rapport à ce que tu as fait à l'étape 1.

    3. Alimentation du DWH à partir de tes fichiers excel en source.

    4. Création du cube

    5. Exploitation du cube

  3. #3
    Membre émérite
    Homme Profil pro
    Ingénieur Pilotage
    Inscrit en
    Avril 2009
    Messages
    405
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Ingénieur Pilotage
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2009
    Messages : 405
    Par défaut
    Quelques infos en plus par rapport aux informations précédentes :

    - distingue bien les faits et les dimensions. En gros, un fait est une valeur mesurable (ex: la note) qu'on peut analyser en fonction d'une axe d'analyse (dimension). Ici, on préconise une modélisation en étoile donc l'analyse est globalement simple.
    Je te conseille de faire une liste de mot/entités du métier et d'en faire une schématisation. Le but est de faire un schéma qui reprend l'essentiel du fonctionnement des MIAGE.
    -n'oublie pas les règles de gestion !
    - après le processus "pseudo-ETL" réalisé, le datamining sera assez basique. Le but des 2 méthodes cités étant de déterminer des groupes homogènes.

    La question est aussi de savoir si tu fais tout ça avec quel outil ?

  4. #4
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut
    Bonjour cedrickb ,lelensois16
    d'abord je vous remercie pour votre aide
    c'est grave a vous repenses j’arrive a comprendre ce que vais faire

    bon je viens d'extraire les faits( notes) et les dimensions(temps
    ,Année_Miage (Iup1 ou Deug, L3 IUP2 ou licence, M1 IUP3 ou maîtrise) et M2 (DESS) soit M2 spécialité ACSI ou M2 spécialité SID) ).

    pour modélisation en étoile
    j'ai réalisé la structure de ma base de donnée sous Access
    contenant les tableau suivants :
    Etudiant
    Matière
    Module
    Session
    .
    .
    .
    je veux alimenter ces tableaux avec les données des fichiers excel que j'ai.
    cependant j'ai un conflit :
    par exemple j'ai la table Etudiant contenant (id_itudiant,nom,prenom) malheureusement j'ai pas de fichier Excel Etudiant par contre j'ai la feuille INFO (c'est un module) contenant (nom,prenom,algo,rmde,c).ça d'une part
    d'autre part
    mon oncle il m'a proposé une autre méthode c'est je vais créer pour chaque feuille d'un fichier Excel une table sous Access comme suit :
    dans une base Access importer--> fichier Excel-->donner le chemin du fichier-->choisir le fichier -->choisir une feuille. et la table se crée. mais j'ai rendu compte que c'est un mauvaise solution car j'ai dans le premier fichier (deug) 6 module c'est-a-dire je vais créer 6 tableaux !!! ce qui est pas possible car je vais avoir 36*6 tableaux ?! pour chaque feuille une table !!
    je sais pas quoi faire

  5. #5
    Membre éprouvé
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Février 2004
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Février 2004
    Messages : 131
    Par défaut
    Bonjour,

    Je vois que ça a bien avancé!
    Alors je vais présenter le principe pour une dimension, ce principe devra être appliqué à toutes les dimensions à alimenter.
    Donc, pour ta dimension Etudiant (id_itudiant,nom,prenom) il faut que tu cherches dans ta source de données (ton fichier excel) ou tu vas trouver les informations sur le nom et prénom des étudiants.
    Si tu retrouves dans ta feuille INFO les données sur les étudiants et nulle part ailleurs, cette feuille va etre ta source de données principale pour ta dimension. Il faut donc partir de cette feuille.

    La source de données étant identifiée il faut maintenant préparer les informations, c'est à dire ne prendre que les colonnes qui t'intéressent (nom et prénom) et s'assurer qu'ils aient bien tous la même présentation (nom en majuscule, prénom avec première lettre en majuscule par ex), et qu'il n'y a pas de doublons.
    Tu dois avoir au final une liste de tous les étudiants, de la forme NOM Prenom sans doublon que tu peux intégrer à ta base accèss. Pour la PK tu peux générer une pk automatique.
    Si tu as bien préparer ton nouveau fichier excel "Etudiant" tu peux l'importer directement dans access .

    J'ai insisté sur la même présentation des données Etudiant (majuscule tout ça) car la qualité des données est quelque chose d'essentiel dans un projet BI!

    Donc pour résumer:
    1. Identifier ou sont les données dans ton fichier
    2. Préparer les données par dimension
    3. Intégrer ces données dans ta base access.

    Hesites pas si tu as des questions

    ++ & bon courage

  6. #6
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut
    Bonjour Monsieur cedrickb,
    je veux vous donné une idée sur mes fichiers
    j'ai dans le fichier DEUG six feuille chaque feuille porte le nom d'un module
    le module il meme est composé d'une liste d'etudiant ainsi leurs notes pour chaque matiere constituant le module

    la feuille RES contient la meme liste des etudiant mais cette fois c'est pas un module cette feuille affiche la liste des etudiant ainsi leurs notes dans les module(la somme des note pour chaque matiere d'un module /la somme des matieres constituant le model) ,la moyenne,le resultat,et en fin la mention



    (en faite c'est comme une redandance mais le prof nous dit que chaque donnée a son importance il faux pas eliminé que ce soit )
    la feuille sheet c'est bultin de notes pour tous les etudiants contient toutes les données liste etudiant les modules les matieres



    NB : la liste des etudiants d'un niveau (DEUG par exemple ) reste la meme pour les autres modules (feuilles) ce qui est logique
    Images attachées Images attachées    

  7. #7
    Membre éprouvé
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Février 2004
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Février 2004
    Messages : 131
    Par défaut
    Hello,

    1. Si ta liste d'étudiant est identique dans tous tes classeur, alors tu peux utiliser 1 classeur pour récupérer tes noms et prénoms et les insérer dans une dimension Eleve.

    Ensuite si j'ai bien compris 1 module se décompose de plusieurs matieres.
    A partir des données et des noms de tes feuilles tu pourras alimenter ta table de dimension "Module" et ta table "Matiere", ou bien une table "module" structurée ainsi:
    • ID_Module
    • Nom_Module
    • Desc_Module
    • Nom_Matiere
    • Desc_Matiere


    A partir de la tu pourras alimenter ta table de fait avec tes données (notes)

    as tu déjà modélisé ta base de données? (cad fait un schéma de ta base?)

    ++

  8. #8
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut bonjour
    bonsoir cedrickbn
    j'ai reussi à modéliser ma base de donnée
    Eleve, Module,Matiere,Note,session, ...
    mais j'ai rendu compte que je dois faire copier coller a partir de mes fichiers.par exemple
    copier "nom et prénom" dans Eleve .copier leur note dans la dimension note .
    copier le nom des feuilles pour construire la dimension module.en fin les Matières pour construire dimension Matière. ya pas un outil qui va faire ça ?
    (cad je vais changer la structure de tous mes fichiers) puisque je fait ça manuellement je vois pas l’intérêt de l'ETL
    ma deuxième question est ce la table de fait "Note " doit être en relation avec toutes les autres table de ma base "modélisation en étoile "
    Encore Merci Monsieur cedrickbn pour votre habituelle collaboration

  9. #9
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut
    Bonsoir cedrickbn

    voila la structure de ma base de donnée sous Access :
    Nom : base.JPG
Affichages : 466
Taille : 27,2 Ko
    j'ai déjà commencé à remplir ma base manuellement a partir des données de mes fichiers Excel, vraiment c très pénible de faire ça manuellement .
    je pense que j'ai un problème au niveau de ma base car elle doit êtres en étoile quelque chose comme ça :
    Nom : images.jpg
Affichages : 457
Taille : 8,3 Ko
    encore merci Monsieur pour votre aide
    Images attachées Images attachées  

  10. #10
    Membre éprouvé
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Février 2004
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Février 2004
    Messages : 131
    Par défaut
    Bonjour,

    Alors oui effectivement la modélisation que tu as effectué a "un problème". Non pas que ça ne fonctionnera pas, ou bien qu'il y aura des performances mauvaises, c'est juste que ça ne respecte pas le principe de "modélisation en étoile".

    Pour cela, pas grand chose à faire. Il suffit de mettre ta table module non pas en relation avec ta table matiere mais directement avec ta table de fait "notes"
    donc dans notes tu aura:
    • Id_note
    • id_matiere
    • id_eleve
    • id_module
    • note

    RQ: je te conseille d'ajouter un champ id_temps (toujours avoir une référence à une dimension temps meme si tu n'as pas de date dans ton fichier, on peut dire que dans ta dimension temps tu auras une seule date, mais ça te permettra d'intégrer facilement des données d'autres années à ton modèle (ca c'est un argument pour ta soutenance )

    dans ta table matiere tu auras
    • id matiere
    • nom matiere
    • coef


    tes tables module et eleve reste inchangées.

    prochaine étape l'alimentation!

  11. #11
    Membre du Club
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Mars 2011
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : Maroc

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2011
    Messages : 6
    Par défaut
    Bonjour cedrickbn,
    je viens d'accomplir la structure de ma base de donnée .
    Après avoir conçu le modèle des données, comment
    alimenter ? et avec quel outil Talend Open Studio (en) ou Pentaho Data Integration (Pentaho)... il y'a beaucoup d'outils.
    Merci pour votre aide

  12. #12
    Invité de passage
    Homme Profil pro
    Docteur en BI
    Inscrit en
    Septembre 2013
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Docteur en BI
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2013
    Messages : 1
    Par défaut BI
    Bonjour ababo,
    qu'est ce que ta pu mettre comme modélisation de BD?

  13. #13
    Modérateur
    Avatar de XxArchangexX
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mars 2012
    Messages
    1 159
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : France

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mars 2012
    Messages : 1 159
    Par défaut
    Bonjour,

    Un peu en retard,
    Après avoir conçu le modèle des données, comment
    alimenter ? et avec quel outil Talend Open Studio (en) ou Pentaho Data Integration (Pentaho)... il y'a beaucoup d'outils.
    Un avis un peu orienté car j'ai une jeune carrière ^_^, j'utilise Talend et il est très bien. Il est facile d'utilisation, gratuit pour la versionTOS. Après ayant une formation de Java c'est plus facile ( langage utilisé par Talend). Si tu connais ce langage, il sera encore plus facile à prendre en main.
    L'Etat est bien administré quand l'escalier de l'école est usé et que l'herbe croît sur celui du tribunal.

    Modérateur BI

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Projet Datawarehouse & Datamining
    Par info1989 dans le forum Statistiques, Data Mining et Data Science
    Réponses: 0
    Dernier message: 10/04/2015, 16h06
  2. Datawarehouse & Datamining
    Par abenelbaida dans le forum Statistiques, Data Mining et Data Science
    Réponses: 0
    Dernier message: 29/09/2014, 00h00
  3. datamining+datawarehouse en prediction meteo
    Par hyacinthus dans le forum SSAS
    Réponses: 0
    Dernier message: 22/11/2008, 13h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo