IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Alimentation Discussion :

qualité des données


Sujet :

Alimentation

  1. #1
    Membre habitué
    Inscrit en
    Mars 2006
    Messages
    408
    Détails du profil
    Informations forums :
    Inscription : Mars 2006
    Messages : 408
    Points : 173
    Points
    173
    Par défaut qualité des données
    Bonjour,

    J'aurais aimé avoir un retour sur vos expériences concernant la gestion de la qualité des données lors de vos ETL's.
    JE sais que pas mal de logiciels permettent de faire face à ce "fléau" mais dans mon cas (comprendre client), nous sommes pour l'instant restés à du developpement pl/sql pour les ETL.

    merci pour votre retour.

  2. #2
    Membre éprouvé Avatar de Jester
    Inscrit en
    Septembre 2003
    Messages
    813
    Détails du profil
    Informations forums :
    Inscription : Septembre 2003
    Messages : 813
    Points : 1 058
    Points
    1 058
    Par défaut
    Comme toujours la qualité ça demande du temps. Il faut que ce soit une volonté forte de la DSI voire de la direction générale.

    Après PL/SQL ou ETL graphique c'est pas ça qui va changer grand chose.

  3. #3
    Membre habitué
    Inscrit en
    Mars 2006
    Messages
    408
    Détails du profil
    Informations forums :
    Inscription : Mars 2006
    Messages : 408
    Points : 173
    Points
    173
    Par défaut
    Bonjour,

    Merci pour votre réponse, mais par ce post je souhaitais faire partager vos connaissances sur les techniques (via soft ou pas) permettant de résorber ces problèmes de qualités de données.

    Merci

  4. #4
    Membre habitué
    Profil pro
    Inscrit en
    Août 2005
    Messages
    117
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Août 2005
    Messages : 117
    Points : 161
    Points
    161
    Par défaut
    Je rejoins Jester sur son analyse.

    Que tu utilises un ETL ou du PL/SQL ne changera rien à la qualité de données. Les outils ETL peuvent être couplés avec des outils spécifiques de qualités de données et les MDM pour la gestion référentielle des données. Mais la qualité ne tient pas à un outil mais à une infrastructure orientée qualité et à une véritable volonté de la DSI.

    Tu peux utiliser tous les outils que tu veux, si une donnée est saisie plusieurs fois par des acteurs différents au sein de ton SI (ressaisie, vues différentes de la même données), il y a un risque non négligeable.

    La qualité de données est une démarche globale qui nécessite une véritable révision de son infrastucture et de ses processus métier.

  5. #5
    Membre éprouvé
    Homme Profil pro
    Architecte Décisionnel
    Inscrit en
    Février 2008
    Messages
    866
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Architecte Décisionnel

    Informations forums :
    Inscription : Février 2008
    Messages : 866
    Points : 1 260
    Points
    1 260
    Par défaut
    Pour revenir sur la question de Go_Ahead, de mon coté je ne suis jamais tombé sur un projet qui avait investi dans un module spécifique de gestion de données.

    J'ai toujours géré ça avec l'outil ETL standard.

    A part peut-être récemment, on a fait quelques analyses de qualité de données avec l'outil gratuit de Talend (Talend Open Profiler). Mais c'était juste des études one shot, pour nous aider à définir les règles de gestion qui allaient être mises en place.

    Nicolas

  6. #6
    Membre éprouvé Avatar de Jester
    Inscrit en
    Septembre 2003
    Messages
    813
    Détails du profil
    Informations forums :
    Inscription : Septembre 2003
    Messages : 813
    Points : 1 058
    Points
    1 058
    Par défaut
    Il y a un ensemble d'erreurs qui sont gérables du coté BI

    1 - Une ligne unique qui ne l'est pas. Si du coté DWH il y a des contraintes d'unicité normalement ça fait sauter la chaîne décisionnelle. Dans ce cas on corrige souvent en mettant un distinct ou group by sur la requête du système source.

    2 - Une valeur nulle qui ne devrait pas. Là il faut trouver une valeur à la place, soit une constante par défaut soit regarder dans d'autres systèmes.

    3 - Une ligne du système source qui n'existe plus. Du coup si on fait une jointure dessus, on a plus rien. Dans ce cas, il faut mettre une jointure externe en place d'une interne et des valeurs par défaut ou correction niveau DWH.

    4 - Données de références du système source pourries. Il faut les surcharger dans le DWH.

    Bien sur, on remonte le problème en amont en premier. Normalement on ne devrait avoir à faire que ça. En pratique ...

  7. #7
    Membre habitué
    Inscrit en
    Mars 2006
    Messages
    408
    Détails du profil
    Informations forums :
    Inscription : Mars 2006
    Messages : 408
    Points : 173
    Points
    173
    Par défaut
    Salut,

    Merci pour vos réponses, mais j'ai actuellement un système qui pourrit mon DWH. En effet j'importe tous les systèmes sources vers le staging, ensuite je les insères dans mon dwh en les historisant mais...
    il y a plusieurs tables qui n'ont apparemment pas de clés primaires, et impossible de faire des conditions dessus... que feriez-vous dans ce type de situation dans laquelle vous n'avez pas la main sur ce système (contraintes de temps et grosse structure...) et qui biaise l'information restituée.

    merci

  8. #8
    Membre éprouvé Avatar de Jester
    Inscrit en
    Septembre 2003
    Messages
    813
    Détails du profil
    Informations forums :
    Inscription : Septembre 2003
    Messages : 813
    Points : 1 058
    Points
    1 058
    Par défaut
    Difficile à dire sans savoir, si c'est un problème de qualité où il y a des doublons et des manquants, il faut appliquer des règles mentionnées plus haut. Si c'est que vous ne comprenez pas la structure, il faut voir avec les dev s'ils sont en interne ou avec toute personne qui peut servir.

  9. #9
    Membre du Club
    Inscrit en
    Octobre 2009
    Messages
    45
    Détails du profil
    Informations forums :
    Inscription : Octobre 2009
    Messages : 45
    Points : 53
    Points
    53
    Par défaut
    Citation Envoyé par Go_Ahead Voir le message
    Salut,

    Merci pour vos réponses, mais j'ai actuellement un système qui pourrit mon DWH. En effet j'importe tous les systèmes sources vers le staging, ensuite je les inseres dans mon dwh en les historisant mais...
    il y a plusieurs tables qui n'ont apparement pas de clés primaires, et impossible de faire des conditions dessus... que feriez-vous dans ce type de situation dans laquelle vous n'avez pas la main sur ce système (contraintes de temps et grosse structure...) et qui biaise l'information restituée.

    merci
    Salut Go_ahead,

    Comment va ton probleme depuis ton post?
    Comme dit Jester, sans etre devant, compliqué de te donner une réponse claire. Tu pourrais regarder comme mentionné plus haut, des outils de profiling, comme Talend Open Profiler. Il te permettront de connaitre où sont tes problèmes de qualité de données.
    Si tu nous donnais quelques précisions supplémentaires on pourrait t'aider encore mieux

    JCB

  10. #10
    Membre habitué
    Inscrit en
    Mars 2006
    Messages
    408
    Détails du profil
    Informations forums :
    Inscription : Mars 2006
    Messages : 408
    Points : 173
    Points
    173
    Par défaut
    Salut Jc-balt,

    Merci pour ton message.
    Tout d'abord, les problèmes de qualité de données sont situés au niveau des systèmes sources (exemple de problèmes : les 3 premiers points cités par Jester + ceux que j'ai cité).
    Après quels détails seraient susceptible d'aider à la compréhension de mon problème ?

    Merci.

  11. #11
    Futur Membre du Club
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5
    Points : 7
    Points
    7
    Par défaut Fiabilisation de données
    Le problème de la qualité des données est récurrent dans les systèmes d'information.
    Il est nécessaire de traiter simultanément la correction des données et les causes d'anomalies, sinon on ne fait que remplir le tonneau des Danaïdes...

    Les anomalies dans les données peuvent provenir :

    - Du chargement initial, à partir d'un autre système dans lequel les données étaient corrompues.
    - Des règles de migration qui ont été utilisées pour charger nouveau système
    - De bugs applicatifs dans le nouveau système qui propagent des anomalies.

    Il convient de faire une analyse des effets négatifs pour se concentrer là où cela fait mal.

    En fonction des besoins, des campagnes de fiabilisation peuvent être menées. Les outils de détection d'anomalies peuvent être packagés pour être exécutés régulièrement et piloter la qualité des données, en lien avec la qualité du code pour corriger les bugs.

    Il y a des sociétés spécialisées avec des outils dédiés et la méthodo qui va bien, on gagne souvent du temps et de l'argent à les faire travailler. Cf http://www.movesol.com/base-de-donne...on-de-donnees/

    A l'heure du big data, la problématique de la qualité des données est cruciale, mais très peu de DSI ont des programmes de fiabilisation des données.
    Il n'y a pas d'analyse des coûts supplémentaires induits par les problèmes de qualité de données et donc pas de budget pour cela. Les utilisateurs sont habitués à avoir des soucis et ne se plaignent plus.
    Les seuls projets que j'ai faits l'ont été à l'initiative de directions commerciales qui se faisaient tacler par leurs clients auxquels ils présentaient des données statistiques fausses.
    Après analyse, les anomalies venaient de l'outil de gestion et généraient des non qualités dans les travaux des utilisateurs et augmentaient les coûts de gestion.

Discussions similaires

  1. Livre sur la qualité des données
    Par jpclabaux dans le forum Approche théorique du décisionnel
    Réponses: 2
    Dernier message: 11/03/2016, 11h05
  2. Réponses: 0
    Dernier message: 21/01/2013, 18h43
  3. Traitez-vous la qualité des données ?
    Par Feyrehr dans le forum Statistiques, Data Mining et Data Science
    Réponses: 1
    Dernier message: 27/09/2012, 18h01
  4. Qualité des données statistiques
    Par id301077 dans le forum SAS STAT
    Réponses: 1
    Dernier message: 03/10/2011, 10h58
  5. Réponses: 1
    Dernier message: 26/05/2009, 13h44

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo