|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Membre habitué
![]() Inscription : mars 2006 Messages : 394 ![]() |
Bonjour,
J'aurais aimé avoir un retour sur vos expériences concernant la gestion de la qualité des données lors de vos ETL's. JE sais que pas mal de logiciels permettent de faire face à ce "fléau" mais dans mon cas (comprendre client), nous sommes pour l'instant restés à du developpement pl/sql pour les ETL. merci pour votre retour. |
|
|
00
|
|
|
#2 |
|
Membre chevronné
![]() Inscription : septembre 2003 Messages : 624 ![]() |
Comme toujours la qualité ça demande du temps. Il faut que ce soit une volonté forte de la DSI voire de la direction générale.
Après PL/SQL ou ETL graphique c'est pas ça qui va changer grand chose. |
|
|
00
|
|
|
#3 |
|
Membre habitué
![]() Inscription : mars 2006 Messages : 394 ![]() |
Bonjour,
Merci pour votre réponse, mais par ce post je souhaitais faire partager vos connaissances sur les techniques (via soft ou pas) permettant de résorber ces problèmes de qualités de données. Merci |
|
|
00
|
|
|
#4 |
|
Membre habitué
![]() Inscription : août 2005 Messages : 117 ![]() |
Je rejoins Jester sur son analyse.
Que tu utilises un ETL ou du PL/SQL ne changera rien à la qualité de données. Les outils ETL peuvent être couplés avec des outils spécifiques de qualités de données et les MDM pour la gestion référentielle des données. Mais la qualité ne tient pas à un outil mais à une infrastructure orientée qualité et à une véritable volonté de la DSI. Tu peux utiliser tous les outils que tu veux, si une donnée est saisie plusieurs fois par des acteurs différents au sein de ton SI (ressaisie, vues différentes de la même données), il y a un risque non négligeable. La qualité de données est une démarche globale qui nécessite une véritable révision de son infrastucture et de ses processus métier. |
|
|
00
|
|
|
#5 |
|
Membre émérite
![]() Nicolas SaumandeArchitecte Décisionnel Inscription : février 2008 Messages : 693 ![]() |
Pour revenir sur la question de Go_Ahead, de mon coté je ne suis jamais tombé sur un projet qui avait investi dans un module spécifique de gestion de données.
J'ai toujours géré ça avec l'outil ETL standard. A part peut-être récemment, on a fait quelques analyses de qualité de données avec l'outil gratuit de Talend (Talend Open Profiler). Mais c'était juste des études one shot, pour nous aider à définir les règles de gestion qui allaient être mises en place. Nicolas |
|
|
00
|
|
|
#6 |
|
Membre chevronné
![]() Inscription : septembre 2003 Messages : 624 ![]() |
Il y a un ensemble d'erreurs qui sont gérables du coté BI
1 - Une ligne unique qui ne l'est pas. Si du coté DWH il y a des contraintes d'unicité normalement ça fait sauter la chaîne décisionnelle. Dans ce cas on corrige souvent en mettant un distinct ou group by sur la requête du système source. 2 - Une valeur nulle qui ne devrait pas. Là il faut trouver une valeur à la place, soit une constante par défaut soit regarder dans d'autres systèmes. 3 - Une ligne du système source qui n'existe plus. Du coup si on fait une jointure dessus, on a plus rien. Dans ce cas, il faut mettre une jointure externe en place d'une interne et des valeurs par défaut ou correction niveau DWH. 4 - Données de références du système source pourries. Il faut les surcharger dans le DWH. Bien sur, on remonte le problème en amont en premier. Normalement on ne devrait avoir à faire que ça. En pratique ... |
|
|
00
|
|
|
#7 |
|
Membre habitué
![]() Inscription : mars 2006 Messages : 394 ![]() |
Salut,
Merci pour vos réponses, mais j'ai actuellement un système qui pourrit mon DWH. En effet j'importe tous les systèmes sources vers le staging, ensuite je les insères dans mon dwh en les historisant mais... il y a plusieurs tables qui n'ont apparemment pas de clés primaires, et impossible de faire des conditions dessus... que feriez-vous dans ce type de situation dans laquelle vous n'avez pas la main sur ce système (contraintes de temps et grosse structure...) et qui biaise l'information restituée. merci |
|
|
00
|
|
|
#8 |
|
Membre chevronné
![]() Inscription : septembre 2003 Messages : 624 ![]() |
Difficile à dire sans savoir, si c'est un problème de qualité où il y a des doublons et des manquants, il faut appliquer des règles mentionnées plus haut. Si c'est que vous ne comprenez pas la structure, il faut voir avec les dev s'ils sont en interne ou avec toute personne qui peut servir.
|
|
|
00
|
|
|
#9 | |
|
Membre du Club
![]() Inscription : octobre 2009 Messages : 45 ![]() |
Citation:
Comment va ton probleme depuis ton post? Comme dit Jester, sans etre devant, compliqué de te donner une réponse claire. Tu pourrais regarder comme mentionné plus haut, des outils de profiling, comme Talend Open Profiler. Il te permettront de connaitre où sont tes problèmes de qualité de données. Si tu nous donnais quelques précisions supplémentaires on pourrait t'aider encore mieux JCB |
|
|
|
00
|
|
|
#10 |
|
Membre habitué
![]() Inscription : mars 2006 Messages : 394 ![]() |
Salut Jc-balt,
Merci pour ton message. Tout d'abord, les problèmes de qualité de données sont situés au niveau des systèmes sources (exemple de problèmes : les 3 premiers points cités par Jester + ceux que j'ai cité). Après quels détails seraient susceptible d'aider à la compréhension de mon problème ? Merci. |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com