Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > ETL > Kettle-Pentaho
Kettle-Pentaho Forum d'entraide Kettle et Pentaho (Kettle, Pentaho Data Integrator)
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 04/08/2008, 16h40   #1
Membre habitué
 
Inscription : mars 2007
Messages : 104
Détails du profil
Informations personnelles :
Âge : 24

Informations forums :
Inscription : mars 2007
Messages : 104
Points : 104
Points : 104
Par défaut Lookup et Volumétrie

Bonjour,

J'ai un fichier délimité en input avec 6 000 000 de lignes, et un fichier délimité en lookup avec 5 000 000 de lignes. En utilisant un Stream lookup, j'ai fort logiquement un problème de mémoire. En effet, si j'ai bien, compris, Kettle va lire en mémoire l'ensemble de la lookup avant de mapper.

Pour remédier à ce problème, depuis sa version 2.4.0 de TOS, Talend permet d'utiliser le Store On Disk dans leur tMap. Cette feature permet de créer des fichiers temporaires sur disque.

Connaissant un peu Datastage, cet outils passe forcément par un fichier de hash, donc pas de problème de mémoire, même si les performances sont ainsi moins bonnes.

J'ai donc réussi à réaliser mes transformations sur Talend et Datastage avec 5 000 000 de lignes en lookup. J'aimerais savoir comment je pourrais faire de même avec Kettle.

Merci d'avance.
Cemos est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/08/2008, 20h02   #2
Membre éprouvé
 
Inscription : juin 2005
Messages : 447
Détails du profil
Informations forums :
Inscription : juin 2005
Messages : 447
Points : 497
Points : 497
Bonjour,

L'étape ''Recherche dans flux'' travaille uniquement en mémoire!
Pour ton exemple, utilises plutôt l'étape "Jointure comparaison lignes".
Mais avant, il faut trier les flux suivants les champs de recherche.


samatar
samatar est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 04h59.


 
 
 
 
Partenaires

Hébergement Web