IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Alimentation Discussion :

[ETL/ELT] Quel ETL Choisir ?


Sujet :

Alimentation

  1. #21
    Membre régulier
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    106
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Avril 2007
    Messages : 106
    Points : 117
    Points
    117
    Par défaut
    Le fichier: http://s3.amazonaws.com/kettle3/biginputfile.txt.gz
    La machine: Laptop Dell Precsision M65 : 2x2.33Ghz, DD = 80Gb/7200, 3GB RAM

    Les transformations/modèlles sont trés simples, la description et les paramètres sont dans le PDF.

    Le message est clair: les outils ETL open source ont bien évolués :-)

    Matt

  2. #22
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Mai 2007
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2007
    Messages : 29
    Points : 33
    Points
    33
    Par défaut
    MattCasters, je viens de réaliser des benchs sur le fichier biginputfile.txt que tu nous fournis. Il s'agit donc d'un fichier de 1,000,001 lignes (1 ligne de header) qui pèse 86 MB. Pour bob23 qui demandait justement ce que ça donnait avec le tExternalSortRow, et bien je réponds: bof. "bof" parce que trier 1 million de lignes, ça ne nécessite pas de passer par une commande externe. J'obtiens de meilleurs résultats avec tSortRow.

    (TOS = Talend Open Studio)

    GNU sort hors TOS : 39s, 100MB en mémoire
    tFID, tExternalSortRow, tFOD (Perl) : 60s, 100MB en mémoire
    tFID, tSortRow, tFOD (Perl) : 25s, 550MB en mémoire
    tFID, tSortRow, tFOD (Java) : 22s, 720MB en mémoire

    Software: TOS 2.2.1, Java 1.6.0_03, Linux 2.6.22, Perl 5.8.8, GNU Sort 5.97.
    Hardware: Core2Duo T7100@1.80GHz, 2GB, hdparm me dit que mon disque fait du 40MB/s

    Le problème de tri commence vraiment à se poser avec des volumes de données plus importants (plusieurs dizaines de millions de ligne). Dans TOS, c'est lorsque Perl ou Java commence à utiliser le swap que les performances s'écroulent et que tExternalSortRow devient pertinent.

    MattCasters, si tu multiplies le nombre de lignes par 10, je pense que les benchs seraient bien différents (je ne parle pas de TOS Vs PDI, mais de tSortRow Vs tExternalSortRow). Donc si tu fabriques le fichier, je publierai volontiers mes résultats :-)

  3. #23
    Membre régulier
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    106
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Avril 2007
    Messages : 106
    Points : 117
    Points
    117
    Par défaut
    En fait, la il-y a un problèm.
    J'ai des fichiers sur mon disque dûr de >1GB. (10 et 25M lignes).
    Parcontre, c'est past évident de places ces fichier sur internet. :-)
    La solution pour si tu veut génerer un fichier tois-même: http://kettle.pentaho.org/svn/Kettle...ata-generator/

    Mais, J'ai fait des testes en single node (1CPU) avec TOS 2.2.0 et PDI-3 et pour l'instant je crois que TOS/Gnu Sort tourne (~) 20% plus vite. J'ai pas encore fait des testes en tournant en parallel.
    Je crois la difference est dans l'itulisation de mémoire. A suivre... :-)

  4. #24
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Février 2007
    Messages
    1
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 1
    Points : 1
    Points
    1
    Par défaut Comparatif ETL
    le monde du décisionnel est en train de bouger et les récentes acquisitions confirment que l'indépendance des petits éditeurs peut varier.
    Néanmoins, l'un des aspects crucial lors du choix de votre ETL est la simplicité d'utilisation, et dans ce domaine là les logiciels libres sont VRAIMENT à la traine et que open source ne signifie jamais vraiment gratuit.

    Je vous recommande l'ETL Data Intelligence (éditeur Oxio) qui constitue l'offre actuelle la plus pertinente en termes de tarification, de simplicité d'utilisation et de richesse de fonctionnalités.

  5. #25
    co2
    co2 est déconnecté
    Membre éclairé
    Avatar de co2
    Profil pro
    Inscrit en
    Mai 2002
    Messages
    182
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2002
    Messages : 182
    Points : 829
    Points
    829
    Par défaut
    Citation Envoyé par Oxio38 Voir le message
    Néanmoins, l'un des aspects crucial lors du choix de votre ETL est la simplicité d'utilisation, et dans ce domaine là les logiciels libres sont VRAIMENT à la traine et que open source ne signifie jamais vraiment gratuit.
    Bonjour Oxio38,
    Il existe des ETL Open Source qui permettent de faire des transformations via des drag&drop, de l'automapping, de la (retro)propagation automatique, des représentations graphiques, des debuggeurs fonctionnels et visuels... tout ce qui faut pour que cela soit très simple!!
    C'est fini le temps ou OpenSource = barbus aux cheveux long devant des écrans noirs qui réalisent des logiciels destinés à d'autres barbus

    L'ouverture du code est juste une autre philosophie, un autre modèle économique, de nouvelles possibilités pour les utilisateurs...
    Cédric Carbone, Talend CTO
    Blog sur Talend, la Business Intelligence et l'intégration de données | Télécharger Talend Open Studio 3.2 / TOP 3.2
    Le forum Talend francophone | anglophone

    Actu : Offre d'emploi Consultants Talend |
    Tu as la réponse à ta question ? Clique sur en bas à gauche de ton message

  6. #26
    Membre à l'essai
    Profil pro
    Inscrit en
    Novembre 2007
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2007
    Messages : 10
    Points : 12
    Points
    12
    Par défaut ETL gratuit pour fichiers .cvs (.txt)
    Bonjour,

    Je trouve cette discussion passionnante, notamment les mesures de performance des différents outils d'ETL.

    Je me permets de vous faire part d'un outil d'ETL gratuit que j'ai réalisé, qui permet de filtrer, modifier, combiner, des données puis de les charger dans une base de données Postgresql.

    Loin d'atteindre les performances et les capacités des outils mentionnés ici, cet outil peut modestement répondre à certains usages.

    La première version est disponible pour les plus curieux sur www.benetl.net.

    Cordialement,

  7. #27
    Membre à l'essai
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    20
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 20
    Points : 13
    Points
    13
    Par défaut
    Je rajoute ma pierre à l'édifice.
    J'ai recherché un outil open source pour charger un entrepôt.
    J'ai tester Talend et kettle mais je n'ai pas trouvé leur prise en main très facile (voire même plutôt difficile).
    Ca parait simple sur un exemple mais dès que j'ai voulu faire quelque chose de "productible" je n'y suis pas parvenu.

    Je me suis retourné vers Scriptella qui permet d'écrire des scripts de migration très facilement. Il n'y a pas d'IHM (ca peut déplaire) mais pour un développeur c'est très accessible et très intégrable (au moins en java).

    Par contre, je n'ai pas d'idée sur les perfs...

    G.

  8. #28
    Membre du Club

    Profil pro
    Inscrit en
    Janvier 2008
    Messages
    30
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2008
    Messages : 30
    Points : 43
    Points
    43
    Par défaut
    Hello,

    je mentionne deux ETL que je trouve plutôt bien:
    - SSIS, qui est disponible gratuitement lorsque vous avez SQL Server 2005
    - ActiveWarehouse-ETL avec lequel j'ai vraiment bien aimé travailler (j'ai soumis quelques patches pour le faire évoluer)

    Pour ActiveWarehouse, vous pouvez retrouver la doc sur http://activewarehouse.rubyforge.org...house-etl.html - c'est totalement en "code" et en ruby, le concept est intéressant d'une part et c'est très pratique et personnalisable d'autre part.

    SSIS est graphique, plutôt performant et simple d'emploi lors du dév. Par contre le déploiement peut être compliqué car extraire la partie configurable n'est pas aisé (il y a des articles entiers sur le sujet).

    voilà j'espère que ça donnera des éléments à certains.

    Thibaut Barrère / LoGeek
    --
    http://blog.logeek.fr - about writing software
    http://evolvingworker.com - tools for a better day

  9. #29
    Membre à l'essai
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2007
    Messages : 9
    Points : 11
    Points
    11
    Par défaut
    Bonjour,
    Citation Envoyé par driss.choukri Voir le message
    Ce job est généré en Perl (via TOS 2.0) et tourne sur ma station Windows2000 (1GB, Core Duo, 3.2 GHz). L'interpréteur perl est un 5.8.8.

    Cela met environ 31 secondes pout traiter 1 million de lignes sur mon poste soit environ 32 000 lignes/seconde.
    Avez vous essayé avec des versions plus récentes ( 2.2, 2.3 ) : des améliorations significatives de performance ont été obtenues sur ce type de traitement.

    Bien cordialement

  10. #30
    Membre à l'essai
    Profil pro
    Inscrit en
    Novembre 2007
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2007
    Messages : 10
    Points : 12
    Points
    12
    Par défaut
    Bonjour,

    Merci à MattCasters pour le test de comparaison d'ETL et la fourniture du jeu de tests.

    Cela a orienté les nouveautés intégrées à Benetl 1.4.
    Le test 4 (page 17 figure 18) a été réussi par Benetl 1.4.

    Cordialement,

  11. #31
    Membre régulier
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    106
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Avril 2007
    Messages : 106
    Points : 117
    Points
    117
    Par défaut
    Il-y a 7 ans, quand j'avais commencé a écrire Kettle, beaucoup de gens me disait que c'etait stupide, inutil, une perte de temps, etc. J'ai jamais écouté ces personnes, et je suis trés content que maintenant il-y a encore des dévélopeurs ETL (comme Benetl2008 notemment) qui ont le courage de fair pareillement.



    Matt

  12. #32
    Futur Membre du Club
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2004
    Messages : 2
    Points : 5
    Points
    5
    Par défaut E-LT performant
    Côté E-LT , il y a aussi Stambia , très complet et très performant

Discussions similaires

  1. [ETL/ELT] Définition - Documentation
    Par Melvine dans le forum Alimentation
    Réponses: 29
    Dernier message: 25/06/2014, 11h22
  2. Quel ETL choisir ? Octopus, Kettle, CloverETL ou Talend ?
    Par bigplayer dans le forum Alimentation
    Réponses: 28
    Dernier message: 19/06/2008, 14h32
  3. Talend ne supporte pas mon XML schéma : quel ETL dois-je utiliser ?
    Par Smix007 dans le forum Développement de jobs
    Réponses: 3
    Dernier message: 12/03/2008, 15h11
  4. Quel ETL est à me conseiller pour une migration de bases ?
    Par Arvulis dans le forum Alimentation
    Réponses: 10
    Dernier message: 27/10/2006, 15h39
  5. ETL - ELT
    Par manuaccess10 dans le forum Alimentation
    Réponses: 3
    Dernier message: 11/04/2006, 11h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo