Produit: Pentaho Data Integration (PDI)
Editeur : Pentaho
Catégorie : ETL
Particularité : Open Source (LGPL)
Compatibilité : Windows, Linux, Unix, Mac OS
Versions stable : 3.03 Dev : 3.1
Liens utiles :
- Quelques retours et études de comparaison : http://www.pentaho.com/products/data_integration/
- le forum : http://forums.pentaho.org/forumdisplay.php?f=135
- Téléchargement
Dev: ftp://download.pentaho.org/client/da...egration/3.1.0
Stable: ftp://download.pentaho.org/client/da...egration/3.0.3

But : Proposer une réelle alternative Open source dans la manipulation des données.

Description :
PDI (anciennement KETTLE) est l’ETL de la suite décisionnelle Open source Pentaho.
PDI à la particularité d’être un « moteur de transformation » : c'est-à-dire que les traitements et les données sont parfaitement séparés (meta-data driven ETL).

En effet, les traitements sont sauvegardés dans des fichiers (structure XML) ou une base de données (référentiel) pour permettre le travail collaboratif.
De plus, PDI supporte un grand nombre de SGBDR et tous les types de fichiers plats (xml, textes, csv, Excel, Fixes, properties, Ldif,…).
Je tiens à signaler que cet outil permet également d’extraire des données et d’alimenter des cubes PALO grâce à 4 plugins.

Le travail de l’utilisateur est grandement amélioré par une interface légère (SWT) et efficace.

Pièce jointe 28950


Elle permet la création et la modification de deux types de traitements :
- Les transformations qui permettre la manipulation des enregistrements (depuis les bases de données,
Serveur LDAP ou fichiers).
- Les tâches, pratiques pour réaliser des séquencements (exécution de transformations, FTP/SFTP/SSH, script shell ou SQL,…) avec gestion des erreurs et envoi de mails.

Passons maintenant aux points forts et faibles

Points forts :
- License LGPL (permet d’embarquer dans des produits commerciaux)
- Très bonnes performances
- Simplicité d’installation (installeur sur Windows)
- Entièrement traduit en français
- Communauté (forum) d’aide très active
- Un grand nombre de BdD et fichiers en tout genre supportés
- Enormément de fonctionnalité de transformation (extraction, normalisation, filtrage, dé doublonnage, agrégation, etc.) et de contrôle (gestion des erreurs, contrôle de qualité sur les données,…)
- Forte intégration ave la plate forme Pentaho
- Développement de plugins simplifié
- Possibilité d’utiliser un référentiel pour le travail collaboratif
- Exécution à distance des traitements
- Exécution en modèle grappe (clusters)
- Gestion des logs très pratiques (export vers fichiers mais également dans référentiel BdD)
- Interface légère et pratique
- Projet vivant avec constamment des améliorations
- Statistiques sur l'exécution des traitements (vitesse, nombre de lignes traitées, en erreurs ,...)


Point faibles
- Pas de plate forme d’exécution et de contrôle des traitements fournis.
Ceux-ci doivent être lancés en ligne de commande (outil fourni) au travers de schedulers.
Notons toutefois que 2 projets sont en cours de développement pour répondre à cette problématique (chez Pentaho et BMP conseil).
- Manque de gestionnaire de traitements pour gérer le changement d’environnement (test/prodution)
- Documentation, certes détaillées mais souvent lapidaire. Ce point est en cours de changement.
En effet, une documentation Wiki en place est en cours d’élaboration.

Voila une petite présentation de PDI
Pour ma part cela fait deux ans que je travaille avec cet outil au quotidien et je suis toujours étonné par sa simplicité et son efficacité.

Je suis impatient de connaitre vos remarques, questions et retours d'expérience.
Si vous avez besoin de plus de précision qq liens utils :
Mes blogs préférés :
Le blog de Matt Casters (créateur de KETTLE) : http://www.ibridge.be/
Un excel blog sur la BI : http://sdecloix.free.fr/
mon adresse mail : sahass78@yahoo.fr
mon blog : http://aboutosi.wordpress.com/