IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Approche théorique du décisionnel Discussion :

Projet Data Warehouse Complet


Sujet :

Approche théorique du décisionnel

  1. #1
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2011
    Messages
    60
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2011
    Messages : 60
    Points : 29
    Points
    29
    Par défaut Projet Data Warehouse Complet
    Bonjour,

    J'espère être dans la bonne section du forum...

    Je suis actuellement stagiaire dans une entreprise souhaitant mettre en place un système décisionnel.

    L'entreprise en question gère principalement les incidents de paiement. Jusqu'à présent ces fichiers étaient traités manuellement avec Excel.

    Plusieurs fois par mois les incidents remontent sous forme de fichier texte (.txt) puis transformer en sous Excel afin de les trier par secteur d'activité grâce au code NAF et par types d'incidents (retard de paiement, rejet des chèques,...) pour ensuite pourvoir en tirer qq chose.

    L'entreprise souhaiterait mettre en place un système permettant de gérer l'arrivé journalière ou mensuelle de ces fichiers d'incidents regroupant plusieurs centaines de milliers de lignes (de l'ordre de 250 000 lignes par mois au final à gérer).
    Le but étant de construire une base de données regroupant tout les anciens fichiers d'incidents de paiements (afin de construire un historique sur plusieurs années) et d'alimenter la base avec les nouveaux. Vous comprendrez bien qu'on risque d'avoisiner rapidement les 3 voir 4 millions de lignes dès la construction du DW...
    Chaque ligne comprend le numéro de SIREN propre à chaque BDD ainsi qu'une dizaines d'autres champs (notamment le code NAF et le type d'incident, adresse, ville, nom, ...).


    Donc dans l'idée je crois avoir bien compris les différentes étapes à mettre en place, à savoir :

    • la définition des besoins
    • la définition de l'architecture technique
    • la modélisation dimensionnelle
    • la création d'une base de données avec la gestion d'un processus ETL
    • mise en place d'un outil décisionnel (pour avoir des tendances par secteur ou autre)


    (bon je saute pleins d'étapes...)

    Enfin je voudrais avoir un peu d'aide afin que je réalise ce projet. Je ne sais pas trop quels outils je devrais utiliser ?

    Je travaille dans un PME, est ce que la mise en place d'une base sous Access serait suffisante ? sachant que l'acces au donnée est limité à 5 utilisateurs max (ca peut toujours évoluer, me direz-vous...)

    Il me faut un système prévenant et donc évolutif si besoin...

    Il me semble que SQL server regroupe ETL + Datawarehouse ?!

    Auriez vous des questions afin que j'arrive à définir plus précisément mon besoin et m'aider dans mon choix ?

    Merci bcp.

    Cordialement,
    Bibouex

  2. #2
    Membre confirmé
    Homme Profil pro
    Architecte Décisionnel
    Inscrit en
    Mai 2006
    Messages
    363
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Architecte Décisionnel
    Secteur : Conseil

    Informations forums :
    Inscription : Mai 2006
    Messages : 363
    Points : 521
    Points
    521
    Par défaut
    Je vais répondre pour les besoins techniques et pour clarifier un point de détail.

    Un DataWarehouse, c'est une base de données dans laquelle on stocke des données en vue des les utiliser pour des besoins BI. C'est tout.

    Maintenant pour tes outils, en gros, tu as besoin de 3 outils :
    Une base de données (logique vu ce que je viens d'écrire ^^)
    Un ETL pour remplir ta base
    Un outil de restitution pour faire des beaux tableaux et graphes pour montrer à tes boss que tu as pas bossé pour rien.

    Tous ces outils sont disponibles chez pleins d'éditeurs et tu peux les mélanger si cela te chante, mais en gros on les classe en 2 grosses familles, les propriétaires et les open-sources.
    Les proprio, c'est les payants de chez Oracle, IBM, Microsoft et consorts
    Les Open-sources, c'est MySQL (s'il survit à son rachat par Oracle), PostGreSQL, Talend, Pentaho, Jasper, Birt et d'autres.

    Les outils propriétaires sont évidement payants mais incluent un support de l'éditeur et beaucoup d'aide est disponible sur le net.
    Les outils Open-sources sont gratuits mais il est possible de payer pour avoir une version "plus-mieux" de l'éditeur avec un support et tout le reste, l'aide existe aussi sur le net mais cela dépend plus de l'outil.

    Pour ta base, en terme de volumétrie, oublies Access.

    Mes conseils :
    Si tes patrons veulent du payant (ça se défend), Microsoft propose, pour l'achat de la base de données, la solution BI complète (BDD, ETL, Reporting) et après une formation tu devrais pouvoir l'administrer sans trop de problèmes.
    Si tes patrons veulent pas dépenser de pognon, une solution open-source est préférable, je recommanderais PostGreSQL ou un fork de MySQL car l'avenir de MySQL est relativement incertain, Talend en tant qu'ETL est pas mal et BIRT ou Jasper pour les reports.

    Ensuite, c'est à toi de voir

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2011
    Messages
    60
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2011
    Messages : 60
    Points : 29
    Points
    29
    Par défaut
    Merci pour ce complément d'informations techniques, à présent cela me semble bien plus clair.

    Cependant pourrais-je avoir une explication un peu plus précise sur la non utilisation d'une base Access (j'avais chercher sur le net pour avoir des infos sur la volumétrie mais j'avoue n'avoir rien trouvé de pertinent et surtout récent concernant ce point là).

    Je savais pertinemment qu'Access n'était pas une solution adéquate : trop limitée pour le requêtage par exemple mais il y a t-il d'autres points noir ?!

  4. #4
    Nouveau Candidat au Club
    Inscrit en
    Juin 2010
    Messages
    1
    Détails du profil
    Informations forums :
    Inscription : Juin 2010
    Messages : 1
    Points : 1
    Points
    1
    Par défaut Mao
    bonjour bibouex & Prjprjen fait je suis dans la même situation que toi bibouex je suis en PFE et je suis chez un opérateur télécommunication qui me demande d'automatiser l'extraction des fichiers csv et xls et transformation en faisant bien sûr quelques opérations : ajout/suppression colonnes ou lignes avec remplacement des données précises etc ...

    j'ai déjà commencé avec Talend open Studio qui me semble un outil idéal pour mon besoin mais le problème c'est que mes connaissances en langage de programmation (java, perl) sont un peu limitées ( je suis plus technique en télécommunication) alors et après des recherches à propos de Talend j'ai trouvé quelques documents mais ça reste toujours flou pour moi.

    je me demande s'il n'existe pas un scenario qui est pareil et qui peut être pour moi une base pour commencé et ne pas trainer sur tas d'informations sans arriver au but final

    bibouex on a le même besoin juste que dans mon cas je veux juste extraire des fichiers xls ou csv et les traités puis avoir un fichier xls en sortie.
    à la fin une base de données n'est pas trop utile pour moi mais s'il ya une possibilité pourquoi pas


    Merci d'avance pour votre aide et à bientôt

  5. #5
    Membre confirmé
    Homme Profil pro
    Architecte Décisionnel
    Inscrit en
    Mai 2006
    Messages
    363
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Architecte Décisionnel
    Secteur : Conseil

    Informations forums :
    Inscription : Mai 2006
    Messages : 363
    Points : 521
    Points
    521
    Par défaut
    @djcrazy08 : fais un autre post, c'est mieux, pour l'instant bibouex n'a pas demandé d'aide pour se "former" à un outil alors que c'est ton besoin, le thread va partir en live si on répond à plusieurs questions.
    Vas sur le site de Talend, il y a pleins de Webinars et de tutos pour apprendre à faire du Talend.

    @bibouex : Access est prévu pour des petites bases de données (ce que j'appelle "bibliothèques de Divx") et ne saura pas répondre rapidement pour une volumétrie de plusieurs millions de lignes, donc, à moins d'avoir envie de voir tes utilisateurs attendre 15 minutes entre chaque clic, oublies Access.
    Par ailleurs, Access ne suit pas la norme des basesde données, si tu apprends sur le truc qui est le moins proche de la norme, tu ne pourras pas l'appliquer dans ta future carrière.
    Par contre, si tes utilisateurs ne jurent que par Access, tu peux leur faire accéder aux données de ta base via Access, c'est relativement simple à mettre en place.

  6. #6
    Membre averti Avatar de Feyrehr
    Homme Profil pro
    Consultant MOA
    Inscrit en
    Juillet 2006
    Messages
    113
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant MOA
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2006
    Messages : 113
    Points : 345
    Points
    345
    Par défaut
    Par expérience : Access, au dela du million de lignes, ca commence à ramer sérieusement. Tout se relativise en fonction de la puissance de la machine qui l'héberge.
    Je crois qu'il y a une limite en taille également, mais à vérifier.


    Petit complément à la 1ere réponse de Prjprj : Dans ton cas, le recours à un ETL n'est pas obligatoire. Tu peux alimenter tes données et faire les contrôles par script. Les ETL sont interessant sur des gros volumes et des transformations importantes. Car les ETL sont assez cher, et assez difficile à maîtriser.

  7. #7
    Membre éprouvé
    Homme Profil pro
    Architecte Décisionnel
    Inscrit en
    Février 2008
    Messages
    866
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Architecte Décisionnel

    Informations forums :
    Inscription : Février 2008
    Messages : 866
    Points : 1 260
    Points
    1 260
    Par défaut
    Citation Envoyé par Feyrehr Voir le message
    Petit complément à la 1ere réponse de Prjprj : Dans ton cas, le recours à un ETL n'est pas obligatoire. Tu peux alimenter tes données et faire les contrôles par script. Les ETL sont interessant sur des gros volumes et des transformations importantes. Car les ETL sont assez cher, et assez difficile à maîtriser.
    Je me permets de rebondir sur cette affirmation.
    Il existe aujourd'hui des ETL Open Source qui proposent des versions gratuites (Talend et Keetle pour les plus connus).
    Et je ne pense pas qu'on puisse dire qu'il soit difficile de maitriser l'un ou l'autre. A mon avis, ce sera plus compliqué pour quelqu'un qui débute de coder des scripts sql et shell que de faire marcher un ETL de ce type.

    Nicolas

  8. #8
    Membre confirmé
    Homme Profil pro
    Architecte Décisionnel
    Inscrit en
    Mai 2006
    Messages
    363
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Architecte Décisionnel
    Secteur : Conseil

    Informations forums :
    Inscription : Mai 2006
    Messages : 363
    Points : 521
    Points
    521
    Par défaut
    +1

    En général, faire des traits entre des boites est plus simple que de faire du SQL (je schématise volontairement).

    Par contre, apprendre le SQL proprement pour comprendre ce qu'on fait (que ce soit en ETL ou par scripting) est selon moi obligatoire.

  9. #9
    Membre averti Avatar de Feyrehr
    Homme Profil pro
    Consultant MOA
    Inscrit en
    Juillet 2006
    Messages
    113
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant MOA
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2006
    Messages : 113
    Points : 345
    Points
    345
    Par défaut
    J'ai vu de ces usines à gaz (le mot est faible) sur des ETL. La maîtrise et la bonne utilisation des ETL n'est pas si évidente que cela paraît.
    Les ETL sont pertinents et interessants surtout au niveau du transform. Et dans le cas présent, je n'ai pas détecté beaucoup de transformation de modèle puisque l'on charge du fichier plat.
    Ca n'est pas parce que quelqu'un a dit le mot magique 'BI' qu'il faut tout de suite sortir l'artillerie lourde. Parfois (souvent), ce ne sont que des projets de reporting tout simple, faisables sous access ou équivalents.

  10. #10
    Membre confirmé
    Homme Profil pro
    Architecte Décisionnel
    Inscrit en
    Mai 2006
    Messages
    363
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Architecte Décisionnel
    Secteur : Conseil

    Informations forums :
    Inscription : Mai 2006
    Messages : 363
    Points : 521
    Points
    521
    Par défaut
    Des usines à gaz, j'ai ai même développé quelques unes donc je confirme que l'on peut faire compliqué avec un ETL. Tout comme en scripting...

    Par contre, la question de l'artillerie lourde est relative, effectivement un Datastage, un BODI ou un Informatica sont surdimensionnés pour le besoin de bibouex, mais un ETL comme Talend répondra au besoin facilement sans passer des jours en installation/configuration.

    Accessoirement, pour un stagiaire qui sort tout juste de la fac, je pense qu'apprendre à se servir d'un ETL peut être bon pour sa carrière.

  11. #11
    Futur Membre du Club
    Inscrit en
    Février 2011
    Messages
    2
    Détails du profil
    Informations forums :
    Inscription : Février 2011
    Messages : 2
    Points : 5
    Points
    5
    Par défaut
    La solution SQL correspondrait le mieux à votre problématique voire même un serveur SQL version Express (voir azure : http://www.microsoft.com/france/wind.../SQLazure.aspx --> plus d’info sur http://msdn.microsoft.com/fr-fr/express/aa718378).

    Il faut savoir que ces solutions sont gratuites.

    Témoignages clients : http://www.microsoft.com/france/temo...4-bb0a197270f3

    Ensuite coté Reporting, vous pouvez utiliser les outils intégrés à SQL si vous avez des compétences SQL.
    Dans l’éventualité où vous n’auriez pas ces connaissances, vous pouvez utiliser un outil tel que StarQuery qui permet de faire des reporting par l’intermédiaire d’une interface graphique déjà mise en place.
    N’hésitez pas à poser d’autres questions si vous avez besoin d’éléments complémentaires,

    Cordialement

    PLuciani

  12. #12
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2011
    Messages
    60
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2011
    Messages : 60
    Points : 29
    Points
    29
    Par défaut
    Pardonnez mon impolitesse, je tiens à vous remercier (tardivement) de tout les conseils et sources que vous avez pu me donner.

    Citation Envoyé par Prjprj Voir le message
    Accessoirement, pour un stagiaire qui sort tout juste de la fac, je pense qu'apprendre à se servir d'un ETL peut être bon pour sa carrière.
    J'ai en effet conscience que le stage que je fais actuellement et pour lequel j'ai été embauché me permettra surement de trouver de nouveau stage et du travail à la sortie mon école. J'en suis pas encore là il me reste 2 ans...

    @PLuciani : Merci pour ces infos, je mettais déjà penché sur MS SQL Express qui, en effet, semble être une bonne solution.

    J'ai des connaissances en PL/SQL et SQL.
    J'ai cette année suivi le cours d'Oracle University en ce qui concerne le Data Warehousing :

    http://education.oracle.com/pls/web_..._id=D18957FR10

    Seulement passé de la théorie à un exemple concret n'est pas toujours évident.

    Je me suis finalement lancé dans le projet en m'aidant des ouvrages de Ralph Kimball.
    J'ai donc commencé par définir précisément les besoins de l'entreprise (grâce à de nombreux entretiens avec les acteurs principaux de l'entreprise)

    Je compte maintenant m'attaquer à la phase de modélisation dimensionnelle avant de pouvoir choisir l'architecture technique à utiliser.

    Les conseils que vous m'avez fournit mon permis de faire énormément de recherche sur les différents solutions pouvant convenir et ainsi mieux comprendre les possibilités de chacun.
    Je vous remercie pour cela, c'est toujours plus motivant de voir qu'il y a des gens qui peuvent vous aider sur les forums

    J'aurais encore besoin d'aide sur la deuxième étape de mon projet DW, La modélisation. Je cherche à savoir si il faut vraiment que je fasse un schéma en étoile selon les données que je souhaite intégrer dans ma base.

    Est ce que je pourrais par exemple prendre contact par MP afin d'avoir des conseils sur les fichiers sources et leur manière de les intégrer en base ?

    Merci.

  13. #13
    Expert confirmé
    Avatar de doc malkovich
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Juillet 2008
    Messages
    1 884
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Juillet 2008
    Messages : 1 884
    Points : 4 285
    Points
    4 285
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par bibouex Voir le message
    Est ce que je pourrais par exemple prendre contact par MP afin d'avoir des conseils sur les fichiers sources et leur manière de les intégrer en base ?
    Non !
    L'objectif du forum est de partager nos connaissances, je suis sûr que ton problème peut intéresser d'autres personnes
    Par contre tu commences une nouvelle discussion, et n'oublies pas de passer celle-ci à Résolu pour la toper comme finie.
    N'oubliez pas de cliquer sur lorsque votre problème est réglé !

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Data warehouse projet
    Par berbersurfer dans le forum Big Data
    Réponses: 2
    Dernier message: 24/10/2014, 14h53
  2. projet data warehouse
    Par halaoui1987 dans le forum Conception/Modélisation
    Réponses: 3
    Dernier message: 12/05/2011, 16h35
  3. projet data warehouse
    Par just-way dans le forum Approche théorique du décisionnel
    Réponses: 2
    Dernier message: 04/06/2010, 23h23
  4. [data warehouse]des liens utiles?
    Par PSYcoZZ dans le forum Décisions SGBD
    Réponses: 2
    Dernier message: 19/06/2005, 08h53
  5. Data warehouse?
    Par donny dans le forum Décisions SGBD
    Réponses: 2
    Dernier message: 16/03/2005, 17h32

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo