Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > ETL
ETL Le Forum d'entraide ETL (Extract Transform Load) et Datawarehouse : DataStage, SunOpsis, Data Integrator, Informatica, OWB, Data Manager, Talend Open Studio,...
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 28/02/2006, 11h52   #1
Membre du Club
 
Inscription : mars 2005
Messages : 277
Détails du profil
Informations forums :
Inscription : mars 2005
Messages : 277
Points : 42
Points : 42
Par défaut [ETL/ELT] Quel ETL Choisir ?

Salut,

Quelles differences existe t il entre tous ces outils ETL ?

Quel ETL utiliser pour quel besoin ? Quel ETL utilisez-vous et pourquoi ?



Melvine est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 17/03/2006, 15h42   #2
Nouveau Membre du Club
 
Avatar de rstephane
 
Inscription : avril 2003
Messages : 59
Détails du profil
Informations personnelles :
Âge : 30

Informations forums :
Inscription : avril 2003
Messages : 59
Points : 31
Points : 31
Envoyer un message via MSN à rstephane
Bonjour, moi j'utilise Informatica pour alimenter des tables Oracle à partir de fichiers plats ou d'autres tables Oracle. L'intérêt d'un ETL (Pour Informatica) est d'avoir un outil graphique qui rend le travail beaucoup plus facile à comprendre (parce que les traitements sont souvent super complexes)... En gros c'est une sorte d'AGL pour faire de l'alimentation.
Pour résumer tout est graphique, tu drag and drop tes tables cibles, il y a des fonctions qui permettent de générer tes requêtes mais généralement c'est du cas par cas sinon se serait trop facile Ensuite tu places des composants qui te permettent de faire divers traitements (tris, calculs, agrégations...) et enfin tu relies tout ça à tes tables cibles.

Sur Informatica tu as pas mal de fonctions de base comme les conversions, les manipulations de chaînes de caractères, les calculs et agrégations... Pour les calculs plus complexes tu peux aussi utiliser les procédures stockées sous Oracle.
Qu'entends-tu par utiliser des tables temporaires?

L'ETL que j'utilise fonctionne en mode ligne à ligne: il lit les infos à partir de la source, fait les transformations nécessaires et enregistre les données à la volée dans une cible, la source et la cible pouvant être un fichier ou une table (Oracle...).
Tu peux créer une table intermédiaire (table ODS) pour stocker les résultats intermédiaires que tu pourras ensuite utiliser comme source pour réinjecter les données dans ta table finale (cible).

J'ai développé une procédure stockée, qui, à partir d'une table RH Oracle permet de calculer le temps de présence journalier d'un salarié (données issues d'une badgeuse) à partir d'un matricule et d'une date passés en paramètre. Sous l’ETL il suffit d’insérer un composant "Procédure Stockée" qui va exécuter la procédure pour chaque couple matricule/date passé en paramètre. J’ai aussi utilisé une procédure permettant de vérifier les contraintes d’intégrités d’une table.

Sous informatica, j'utilise une procédure stockée Oracle (développée sous Oracle). Quand tu veux utiliser une procédure stockée dans un flux d'alimentation il faut l'avoir préalablement importée.
Avec Informatica tu cliques sur "importer une procédure stockée", tu saisies l'instance, le user et le mot de passe, tu choisis la procédure que tu veux utiliser, tu fais ok et ta procédure apparaît sur ton écran de travail (Et tu vois tous les ports d'entrée/sortie de ta procédure). Ensuite tu n'as plus qu'à la connecter au reste de ton flux.

Dès que tu as besoins de passer des paramètres à tes workflows tu dois utiliser unix. L’utilisation des scripts shell dépend de la façon de travailler des entreprises. Dans mon cas il faut compter un script de lancement par worflow.

Sinon je vais bientôt être formé sous un nouvel ETL (Genio), je pourrais donner mes impressions.
rstephane est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 15/03/2007, 18h03   #3
Invité de passage
 
Inscription : mars 2007
Messages : 2
Détails du profil
Informations forums :
Inscription : mars 2007
Messages : 2
Points : 2
Points : 2
Par défaut Etude comparative sur les différents ETLs : Vos avis ?

Bonjour,

Je suis entrain de faire une étude comparative sur les ETLs open source présents sur le marché (c' est une premiere partie de mon PFE). parmi ceux que j'ai trouvé (Octopus, Babeldoc, CloverETL, Talend), en avez vous testez? Qu’en pensez vous? Quels sont selon vous, les points forts et faibles de chacun?

Merci d’avance
issam7 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 16/03/2007, 16h25   #4
Nouveau Membre du Club
 
Inscription : septembre 2005
Messages : 74
Détails du profil
Informations personnelles :
Âge : 38
Localisation : France, Paris (Île de France)

Informations forums :
Inscription : septembre 2005
Messages : 74
Points : 39
Points : 39
Salut,

un retour d'expérience sur PDI/Kettle sur ce forum.

Par ailleurs, je te conseille vivement de tester toi même toutes ces solutions si tu veux pouvoir en parler en toute connaissance de cause et ainsi disposer d'un peu plus que d'un simple verni.

Par exemple, avec un VMWare (ou Xen ou VirtualPC ...), quelques machines virtuelles et un peu de temps, tu devrais pouvoir te monter rapidement un petit socle de test et acquérir une première impression assez fiable pour chaque solution.
VinZent est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 16/03/2007, 19h00   #5
Invité de passage
 
Inscription : mars 2007
Messages : 2
Détails du profil
Informations forums :
Inscription : mars 2007
Messages : 2
Points : 2
Points : 2
Bonjour,

Oui je suis tout à fait d'accord, il faut tester pour bien justifier ses choix,ses deduction. Je voulais savoir si ca vaut la peine de tester sur d'autre ETL ou non.

En fait, j'ai testé et comparé : Talend, kettle, octopus, avec Ab Initio.

Ab Initio : C'est le plus performant (Interface graphique ergonomique, performant : trop rapide, et payant : trop meme), Ab Inition genere un script shell qui s'execute au serveur.

Talend : J'ai aprécié, car il presente une interface graphique, genere un script perl (et java : dans la version prochaine d'Avril), performance acceptable.

Kettle : Son petit probleme c'est qu'il prend un peut plus de temp.


Tests de rapidité :

J'ai fait un tri sur un fichier plat de 127Mo

Ab Initio : 13s
Talend : 68s
Kettle : 777.5s !!! un peu lent
issam7 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 16/03/2007, 21h07   #6
Nouveau Membre du Club
 
Inscription : septembre 2005
Messages : 74
Détails du profil
Informations personnelles :
Âge : 38
Localisation : France, Paris (Île de France)

Informations forums :
Inscription : septembre 2005
Messages : 74
Points : 39
Points : 39
Ab Initio me tente aussi ces derniers temps.

Attention cependant sur Kettle pour les tris : il faut paramétrer au poil la transformation (nb de rows pour une passe de tri, usage de la ram / fichiers temporaires).
A la vue du temps de tri que tu as constaté pour Kettle, je dirais que tu es passé par un nombre élevé de fichiers temp. Augmenter le nb de rows en mémoire booste énorément le traitement. Il y a aussi une option de compression des temp files, utile lorsque l'espace disk est compté, mais qui rajoute du temps de traitement.
A titre d'illustration, je tris un petit million de rows en un peu moins de 3 minutes sur Solaris en allouant 1 Gb au moteur java de Kettle et en passant des "paquets" de 200 000 rows.
VinZent est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 23/03/2007, 16h14   #7
Membre habitué
 
Avatar de ben_harper
 
Inscription : juin 2006
Messages : 140
Détails du profil
Informations personnelles :
Âge : 32

Informations forums :
Inscription : juin 2006
Messages : 140
Points : 108
Points : 108
Ab Initio est surement de loin le plus performant et surtout il sait s'adapter en fonction des ressources disponibles.

Par contre les licences et formations sont vraiment hors de prix.
Il n'est d'ailleurs utilisé pratiquement que par les grands comptes.
ben_harper est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 06/05/2007, 14h20   #8
Membre habitué
 
Inscription : avril 2007
Messages : 107
Détails du profil
Informations personnelles :
Localisation : Belgique

Informations forums :
Inscription : avril 2007
Messages : 107
Points : 108
Points : 108
Envoyer un message via AIM à MattCasters Envoyer un message via MSN à MattCasters Envoyer un message via Yahoo à MattCasters Envoyer un message via Skype™ à MattCasters
>Ab Initio : 13s
>Talend : 68s
>Kettle : 777.5s !!! un peu lent

Pfff, tous le monde peut créer des testes pareilles.

J'ai 3 choces a dire:

1) Text input: Ab Initio comme d'autres n'utilisent pas Unicode dans ce cas la. C'est pas facille a faire en Java, mais on travaille deçu.

2) Je ne crois pas que Talend supporte des trés grandes fichiers. La limite est la taille du mémoire interne de l'ordinateur. Comme VinZent l'a dit, on peut configurer Kettle de fair la même chose. (trier les données en mémoire)

3) Sans références (fichiers utilisé, transformations utilisé), sans versions (AI, Talend, Kettle) vos resultas sont imossible a vérifier...

Cordiallement,

Matt
MattCasters est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 16/05/2007, 20h32   #9
Invité régulier
 
Inscription : mai 2007
Messages : 7
Détails du profil
Informations personnelles :
Âge : 38
Localisation : Canada

Informations forums :
Inscription : mai 2007
Messages : 7
Points : 7
Points : 7
Citation:
Envoyé par MattCasters
>
2) Je ne crois pas que Talend supporte des trés grandes fichiers. La limite est la taille du mémoire interne de l'ordinateur. Comme VinZent l'a dit, on peut configurer Kettle de fair la même chose. (trier les données en mémoire)
Bonjour Matt,

Je crois que Kettle est un bon produit par contre pour ce qui est des performances, pourquoi Pentaho n'offre pas sur leur site de résultats de Benchmark et de documentation sur l'architecture pour que l'on puisse voir ce dont il est capable?

Bien que c'est une information très dépendante du contexte de chaque installation, pourquoi n'a-t-on pas de Minimal Requirements? Du moins avoir des exemples configurations dans lesquelles Kettle réponds bien. Le tout est histoire de pouvoir prévoir notre plateforme Hard pour l'installer.

Merci

Hugo Poissant
Montréal, Canada
sauros est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 17/05/2007, 01h31   #10
Membre habitué
 
Inscription : avril 2007
Messages : 107
Détails du profil
Informations personnelles :
Localisation : Belgique

Informations forums :
Inscription : avril 2007
Messages : 107
Points : 108
Points : 108
Envoyer un message via AIM à MattCasters Envoyer un message via MSN à MattCasters Envoyer un message via Yahoo à MattCasters Envoyer un message via Skype™ à MattCasters
Tu as absolument raison.

Réf: mon blog
MattCasters est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 18/05/2007, 10h58   #11
co2
Membre émérite
 
Avatar de co2
 
Inscription : mai 2002
Messages : 182
Détails du profil
Informations forums :
Inscription : mai 2002
Messages : 182
Points : 823
Points : 823
Envoyer un message via Skype™ à co2
Citation:
Envoyé par MattCasters
>Ab Initio : 13s
>Talend : 68s
>Kettle : 777.5s !!! un peu lent

Pfff, tous le monde peut créer des testes pareilles.
Comme Matt, j'aimerai bien avoir plus d'info sur ton tests (des captures d'ecran de ces 3 jobs, le telechargement des jobs...)


Citation:
Envoyé par MattCasters
2) Je ne crois pas que Talend supporte des trés grandes fichiers. La limite est la taille du mémoire interne de l'ordinateur. Comme VinZent l'a dit, on peut configurer Kettle de fair la même chose. (trier les données en mémoire)
Cela n'est pas correct. Nous avons deux composants de tri, un (tSortRow) qui tri via l'écriture en mémoire (et ne peut donc pas gérer des grands volumes de données) et un autre (tExternalSortRow) qui tri les données via la commande système sort (sous windows il faut installer GNU Coreutils http://www.gnu.org/software/coreutils/) qui permet de trier de façon très performante les fichiers de très grandes tailles!
co2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 18/05/2007, 13h01   #12
Membre habitué
 
Inscription : avril 2007
Messages : 107
Détails du profil
Informations personnelles :
Localisation : Belgique

Informations forums :
Inscription : avril 2007
Messages : 107
Points : 108
Points : 108
Envoyer un message via AIM à MattCasters Envoyer un message via MSN à MattCasters Envoyer un message via Yahoo à MattCasters Envoyer un message via Skype™ à MattCasters
Et voila, problème résolu ;-)
MattCasters est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 18/05/2007, 20h44   #13
Invité régulier
 
Inscription : mai 2007
Messages : 7
Détails du profil
Informations personnelles :
Âge : 38
Localisation : Canada

Informations forums :
Inscription : mai 2007
Messages : 7
Points : 7
Points : 7
Citation:
Envoyé par co2
Cela n'est pas correct. Nous avons deux composants de tri, un (tSortRow) qui tri via l'écriture en mémoire (et ne peut donc pas gérer des grands volumes de données) et un autre (tExternalSortRow) qui tri les données via la commande système sort (sous windows il faut installer GNU Coreutils http://www.gnu.org/software/coreutils/) qui permet de trier de façon très performante les fichiers de très grandes tailles!
tExternalSortRow permet d'utiliser sort, est-il possible également d'utiliser SyncSort ? ( bien que ce logiciel soit propriétaire )
sauros est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2007, 14h02   #14
Nouveau Membre du Club
 
Inscription : mai 2007
Messages : 29
Détails du profil
Informations forums :
Inscription : mai 2007
Messages : 29
Points : 29
Points : 29
Citation:
Envoyé par sauros
tExternalSortRow permet d'utiliser sort, est-il possible également d'utiliser SyncSort ? ( bien que ce logiciel soit propriétaire )
(Je suis ingénieur R&D chez Talend et plus particulièrement, j'ai écrit le tExternalSortRow)

Le composant tExternalSortRow construit la ligne de commande pour le programme GNU sort. En dupliquant le composant, on peut lui faire utiliser un autre exécutable, voire même changer la façon de le paramétrer.

Alternative : si SyncSort se paramètre de la même façon que GNU sort, le plus simple est de faire un lien symbolique sort -> syncsort

Pour éviter toute "langue de bois" : non, on ne peut pas dire quel executable utiliser dans le tExternalSortRow, mais tout a été mis en oeuvre pour faciliter sa duplication et la personnalisation d'un composant défini par l'utilisateur.
plegall est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/07/2007, 14h59   #15
Invité de passage
 
Inscription : octobre 2006
Messages : 2
Détails du profil
Informations personnelles :
Localisation : France, Paris (Île de France)

Informations forums :
Inscription : octobre 2006
Messages : 2
Points : 2
Points : 2
Par défaut Tests des outils BI open Sources

Bonjour,

J'ai fait un benchmark avec l'ETL TALEND open Studio 2.0. Ce bench met en jeu un fichier source de 1 million de lignes :
- un lookup de 5000 lignes,
- un filtrage des lignes,
- une agregation suivant 2 champs afin de calculer 2 moyennes et une valeur minimum,
- une transformation en scripting (extraire de valeurs entieres),
- un tri suivant 3 clés (2 alphanumériques une numérique),
- l’écriture d'un fichier positionnel, d'un fichier XML et d'un fichier délimité.

Ce job est généré en Perl (via TOS 2.0) et tourne sur ma station Windows2000 (1GB, Core Duo, 3.2 GHz). L'interpréteur perl est un 5.8.8.

Cela met environ 31 secondes pout traiter 1 million de lignes sur mon poste soit environ 32 000 lignes/seconde.

Je recherche des tests similaires avec les outils Octopus/kettle/CloverETL.
Je suis preneur si vous avez faits ce type de test.


Merci.
driss.choukri est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 25/09/2007, 22h41   #16
Invité régulier
 
Inscription : mai 2007
Messages : 8
Détails du profil
Informations forums :
Inscription : mai 2007
Messages : 8
Points : 8
Points : 8
Citation:
Envoyé par driss.choukri Voir le message
Je recherche des tests similaires avec les outils Octopus/kettle/CloverETL.
Je suis preneur si vous avez faits ce type de test.
Je viens de trouver un benchmark assez complet entre Kettle et Talend sur le net.

http://marcrussel.files.wordpress.co...-vs-kettle.pdf

Il en ressort que le grand vanqueur coté performance est Talend Open Studio (meme par rapport à la prochaine version PDI 3.0 M1)!

Bob
bob23 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 05/10/2007, 14h03   #17
Invité de passage
 
Inscription : octobre 2006
Messages : 2
Détails du profil
Informations personnelles :
Localisation : France, Paris (Île de France)

Informations forums :
Inscription : octobre 2006
Messages : 2
Points : 2
Points : 2
Citation:
Envoyé par bob23 Voir le message
Je viens de trouver un benchmark assez complet entre Kettle et Talend sur le net.

http://marcrussel.files.wordpress.co...-vs-kettle.pdf

Il en ressort que le grand vanqueur coté performance est Talend Open Studio (meme par rapport à la prochaine version PDI 3.0 M1)!

Bob

Merci pour ce document fort interessant.
driss.choukri est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 31/10/2007, 09h53   #18
Membre du Club
 
Inscription : février 2006
Messages : 101
Détails du profil
Informations forums :
Inscription : février 2006
Messages : 101
Points : 63
Points : 63
Bonjour,

Pour ma part je suis en ETL génio, je suis dispo si vous avez des questions
Cdlt
pnoel-bi est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/11/2007, 20h54   #19
Membre habitué
 
Inscription : avril 2007
Messages : 107
Détails du profil
Informations personnelles :
Localisation : Belgique

Informations forums :
Inscription : avril 2007
Messages : 107
Points : 108
Points : 108
Envoyer un message via AIM à MattCasters Envoyer un message via MSN à MattCasters Envoyer un message via Yahoo à MattCasters Envoyer un message via Skype™ à MattCasters
Par défaut Kettle benchmark : lire - trier - écrire

Tous les versions de Kettle sont testés: 2.2.2 --> 3.0.0RC2

...et aussi Talend 2.0.3 et 2.2.0,

En plus : http://www.ibridge.be/?p=82

A+,
Matt
MattCasters est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/11/2007, 22h30   #20
Invité régulier
 
Inscription : mai 2007
Messages : 8
Détails du profil
Informations forums :
Inscription : mai 2007
Messages : 8
Points : 8
Points : 8
Citation:
Envoyé par MattCasters Voir le message
Tous les versions de Kettle sont testés: 2.2.2 --> 3.0.0RC2

...et aussi Talend 2.0.3 et 2.2.0,

En plus : http://www.ibridge.be/?p=82

A+,
Matt
Merci pour ce test (je recherche très activement tous les tests de performance Kettle vs Talend). Si c'est toi qui est l'auteur de ce test, est-il possible d'avoir en download le fichier source et les jobs PDI et Talend ? et des infos sur la machine qui a permit de faire le test?
Meme mieux, vu 5 posts plus haut, il est précisé que lorsqu'on a des fichiers volumineux il n'est pas pertinent de faire des tris en mémoire donc il serait bien que tu rajoutes un test avec le composant tExternalSort dont plegall parle afin d'avoir un bench représentatif de ce qui est réalisé dans la vraie vie? Peux-tu faire cela?
bob23 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 05h11.


 
 
 
 
Partenaires

Hébergement Web