Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > ETL
ETL Le Forum d'entraide ETL (Extract Transform Load) et Datawarehouse : DataStage, SunOpsis, Data Integrator, Informatica, OWB, Data Manager, Talend Open Studio,...
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 20/05/2011, 08h55   #1
Membre habitué
 
Inscription : mars 2006
Messages : 394
Détails du profil
Informations forums :
Inscription : mars 2006
Messages : 394
Points : 128
Points : 128
Par défaut qualité des données

Bonjour,

J'aurais aimé avoir un retour sur vos expériences concernant la gestion de la qualité des données lors de vos ETL's.
JE sais que pas mal de logiciels permettent de faire face à ce "fléau" mais dans mon cas (comprendre client), nous sommes pour l'instant restés à du developpement pl/sql pour les ETL.

merci pour votre retour.
Go_Ahead est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 20/05/2011, 16h36   #2
Membre chevronné
 
Avatar de Jester
 
Inscription : septembre 2003
Messages : 624
Détails du profil
Informations forums :
Inscription : septembre 2003
Messages : 624
Points : 633
Points : 633
Comme toujours la qualité ça demande du temps. Il faut que ce soit une volonté forte de la DSI voire de la direction générale.

Après PL/SQL ou ETL graphique c'est pas ça qui va changer grand chose.
Jester est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 20/05/2011, 16h52   #3
Membre habitué
 
Inscription : mars 2006
Messages : 394
Détails du profil
Informations forums :
Inscription : mars 2006
Messages : 394
Points : 128
Points : 128
Bonjour,

Merci pour votre réponse, mais par ce post je souhaitais faire partager vos connaissances sur les techniques (via soft ou pas) permettant de résorber ces problèmes de qualités de données.

Merci
Go_Ahead est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 20/05/2011, 17h11   #4
Membre habitué
 
Inscription : août 2005
Messages : 117
Détails du profil
Informations personnelles :
Âge : 29
Localisation : France, Paris (Île de France)

Informations forums :
Inscription : août 2005
Messages : 117
Points : 145
Points : 145
Je rejoins Jester sur son analyse.

Que tu utilises un ETL ou du PL/SQL ne changera rien à la qualité de données. Les outils ETL peuvent être couplés avec des outils spécifiques de qualités de données et les MDM pour la gestion référentielle des données. Mais la qualité ne tient pas à un outil mais à une infrastructure orientée qualité et à une véritable volonté de la DSI.

Tu peux utiliser tous les outils que tu veux, si une donnée est saisie plusieurs fois par des acteurs différents au sein de ton SI (ressaisie, vues différentes de la même données), il y a un risque non négligeable.

La qualité de données est une démarche globale qui nécessite une véritable révision de son infrastucture et de ses processus métier.
tetsu no tama est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 23/05/2011, 10h28   #5
Membre émérite
 
Homme Nicolas Saumande
Architecte Décisionnel
Inscription : février 2008
Messages : 693
Détails du profil
Informations personnelles :
Nom : Homme Nicolas Saumande
Âge : 36
Localisation : France, Haute Garonne (Midi Pyrénées)

Informations professionnelles :
Activité : Architecte Décisionnel

Informations forums :
Inscription : février 2008
Messages : 693
Points : 879
Points : 879
Pour revenir sur la question de Go_Ahead, de mon coté je ne suis jamais tombé sur un projet qui avait investi dans un module spécifique de gestion de données.

J'ai toujours géré ça avec l'outil ETL standard.

A part peut-être récemment, on a fait quelques analyses de qualité de données avec l'outil gratuit de Talend (Talend Open Profiler). Mais c'était juste des études one shot, pour nous aider à définir les règles de gestion qui allaient être mises en place.

Nicolas
DevNico est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 23/05/2011, 11h04   #6
Membre chevronné
 
Avatar de Jester
 
Inscription : septembre 2003
Messages : 624
Détails du profil
Informations forums :
Inscription : septembre 2003
Messages : 624
Points : 633
Points : 633
Il y a un ensemble d'erreurs qui sont gérables du coté BI

1 - Une ligne unique qui ne l'est pas. Si du coté DWH il y a des contraintes d'unicité normalement ça fait sauter la chaîne décisionnelle. Dans ce cas on corrige souvent en mettant un distinct ou group by sur la requête du système source.

2 - Une valeur nulle qui ne devrait pas. Là il faut trouver une valeur à la place, soit une constante par défaut soit regarder dans d'autres systèmes.

3 - Une ligne du système source qui n'existe plus. Du coup si on fait une jointure dessus, on a plus rien. Dans ce cas, il faut mettre une jointure externe en place d'une interne et des valeurs par défaut ou correction niveau DWH.

4 - Données de références du système source pourries. Il faut les surcharger dans le DWH.

Bien sur, on remonte le problème en amont en premier. Normalement on ne devrait avoir à faire que ça. En pratique ...
Jester est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 10/06/2011, 14h17   #7
Membre habitué
 
Inscription : mars 2006
Messages : 394
Détails du profil
Informations forums :
Inscription : mars 2006
Messages : 394
Points : 128
Points : 128
Salut,

Merci pour vos réponses, mais j'ai actuellement un système qui pourrit mon DWH. En effet j'importe tous les systèmes sources vers le staging, ensuite je les insères dans mon dwh en les historisant mais...
il y a plusieurs tables qui n'ont apparemment pas de clés primaires, et impossible de faire des conditions dessus... que feriez-vous dans ce type de situation dans laquelle vous n'avez pas la main sur ce système (contraintes de temps et grosse structure...) et qui biaise l'information restituée.

merci
Go_Ahead est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 11/06/2011, 23h12   #8
Membre chevronné
 
Avatar de Jester
 
Inscription : septembre 2003
Messages : 624
Détails du profil
Informations forums :
Inscription : septembre 2003
Messages : 624
Points : 633
Points : 633
Difficile à dire sans savoir, si c'est un problème de qualité où il y a des doublons et des manquants, il faut appliquer des règles mentionnées plus haut. Si c'est que vous ne comprenez pas la structure, il faut voir avec les dev s'ils sont en interne ou avec toute personne qui peut servir.
Jester est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 27/07/2011, 16h06   #9
Membre du Club
 
Inscription : octobre 2009
Messages : 45
Détails du profil
Informations forums :
Inscription : octobre 2009
Messages : 45
Points : 46
Points : 46
Citation:
Envoyé par Go_Ahead Voir le message
Salut,

Merci pour vos réponses, mais j'ai actuellement un système qui pourrit mon DWH. En effet j'importe tous les systèmes sources vers le staging, ensuite je les inseres dans mon dwh en les historisant mais...
il y a plusieurs tables qui n'ont apparement pas de clés primaires, et impossible de faire des conditions dessus... que feriez-vous dans ce type de situation dans laquelle vous n'avez pas la main sur ce système (contraintes de temps et grosse structure...) et qui biaise l'information restituée.

merci
Salut Go_ahead,

Comment va ton probleme depuis ton post?
Comme dit Jester, sans etre devant, compliqué de te donner une réponse claire. Tu pourrais regarder comme mentionné plus haut, des outils de profiling, comme Talend Open Profiler. Il te permettront de connaitre où sont tes problèmes de qualité de données.
Si tu nous donnais quelques précisions supplémentaires on pourrait t'aider encore mieux

JCB
Jc-balt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 29/07/2011, 11h05   #10
Membre habitué
 
Inscription : mars 2006
Messages : 394
Détails du profil
Informations forums :
Inscription : mars 2006
Messages : 394
Points : 128
Points : 128
Salut Jc-balt,

Merci pour ton message.
Tout d'abord, les problèmes de qualité de données sont situés au niveau des systèmes sources (exemple de problèmes : les 3 premiers points cités par Jester + ceux que j'ai cité).
Après quels détails seraient susceptible d'aider à la compréhension de mon problème ?

Merci.
Go_Ahead est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 16h10.


 
 
 
 
Partenaires

Hébergement Web