Bonjour Tout le monde ,
Est ce que quelqu’un pourra me citer des exemples de risques qui pourront se produire lors du chargement d'un datawerhouse
Merci infiniment
Bonjour Tout le monde ,
Est ce que quelqu’un pourra me citer des exemples de risques qui pourront se produire lors du chargement d'un datawerhouse
Merci infiniment
Hum, un des risques importants est que le datawarehouse est trop lourd, dans ce cas là le serveur tombe et s'écrase au sol
Plus sérieusement, pourriez-vous préciser le contexte, le sens de la question ?
Donner des exemples, montrer que vous y avez réfléchi un peu ...
N'oubliez pas de cliquer sur lorsque votre problème est réglé !
Bonjour
par exemple si j’alimente mon entropot de données à partir de 2 sources de données globale :
base de données des douane et la base de données du ministère de l’agriculture
pourtant j'ai pas fait attention que
le code du produit blé dans la base de la douane est "XBLE" et le code du même produit dans la base du ministère de l’agriculture est "CDEBLE"
donc je vais me retrouvé avec un produit qui a 2 code !!!!!!
autre exemple
prix d'un produit en différent devise
ect
j'espere que j'etais un peu claire
Merci
Bonjour,
Du coup oui, il y a une infinité de problème possible. C'est pour cela que la première phase d'un entrepôt de données est la définition des règles de gestion.
Comme tu dis, toutes les devises au même format, mais c'est pareil pour toutes les données. Il faut passer par une normalisation, nom de famille en majuscule? minuscule? première lettre majuscule et le reste minuscule? Les villes il faut un format sur le même principe. L'une des données les plus complexe, les dates format dd/MM/yyyy ou yyyy/MM/dd ou un autre. Tu as aussi les adresses, numéro,rue,ville, codepostale ou dans un autre ordre. Un dernier pour la route, la civilité peut être complexe aussi, calculé en fonction du prénom, c'est plus de l'enrichissement dans ce cas si les données sont calculées en fonction d'une autre.
Du coup je ne sais pas quelle est la source pour tes données, mais si ça provient d'un formulaire rempli par des clients landa, il faut partir du principe qu'il peut y avoir tout et n'importe quoi.
Il faut aussi faire attention au doublon. Et faire des fusions, mais c'est pareil c'est un point complexe car il faut éviter de fusionner des données qui sont vraiment différentes, pour illustrer, tu peux fusionner des clients par le nom prénom mais il existe des personnes avec le même nom et prénom. Rajouter l'adresse mais dans une famille il peut y avoir le même cas.
Il faut donc définir le niveau de qualité de l'entrepôt, le nombre de doublon pour des analyses cohérentes et définir une règle de gestion pour chaque données. C'est pour cela qu'on dit qu'un entrepôt de données se construit et pas en 2 jours.
Pour finir toutes ces opérations sont effectuées grâce à l'ETL, par le T pour transform .
Après, c'est du temps et un coût mais c'est la prix à payer pour un entrepôt de qualité et des rapports d'analyse cohérent.
L'Etat est bien administré quand l'escalier de l'école est usé et que l'herbe croît sur celui du tribunal.
Modérateur BI
Comme le dit XxArchangexX il y a énormément de problèmes possibles
Difficile de les lister ici, ça prendrait plusieurs pages ...
Pour simplifier il y a principalement les problèmes de qualité de données (doublons, problèmes de saisie, références manquantes ou différentes ...). C'est pourquoi il faut une phase de nettoyage avant chargement dans le datawarehouse. Cette phase peut être faite en automatique dans les ETL mais il faut au préalable définir les règles qu'on veut vérifier.
Et là il faut lister tous les contrôles possibles ...
Bon courage
N'oubliez pas de cliquer sur lorsque votre problème est réglé !
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager