Bonjour,
nous héritons d'un datawarehouse concu par un prestataire BI, ce datawarehouse est alimenté via talend, la source étant une base mysql.
Le datawarehouse est lui aussi sous mysql.
Notre prestataire a ajouté, dans chacune des tables de fait et de dimensions du datawarehouse, des identifiants dédiés autoincrementés. Les liens entre les tables sont tous faits
via ces identifiants. D'apres lui, ces identifiants sont très utiles lorsqu'on aggrège des données de différentes sources dans une même table, ce qui me parait effectivement un bon point.
Néanmoins ces identifiants sont très contraignants :
- on ne peut pas parraléliser les chargements car les identifiants ne sont pas encore connus, le chargement doit donc être séquentiel
- si on supprime des données dans les tables (cas d'un reload complet d'une table dont les données sources ont changé), et qu'il y a d'autres tables liées, alors tous les identifiants changent et les liens sont tous cassés.
Si on gardait les identifiants (déjà uniques) de notre source de données, nous parerions à ces problèmes.
Qu'en pensez-vous ? Quelle pratique de modélisation adoptez-vous par rapport à cela ?
Merci pour votre aide !
Partager