Lookup et Volumétrie

**Cemos** · 04/08/2008, 16h40

Bonjour,

J'ai un fichier délimité en input avec 6 000 000 de lignes, et un fichier délimité en lookup avec 5 000 000 de lignes. En utilisant un Stream lookup, j'ai fort logiquement un problème de mémoire. En effet, si j'ai bien, compris, Kettle va lire en mémoire l'ensemble de la lookup avant de mapper.

Pour remédier à ce problème, depuis sa version 2.4.0 de TOS, Talend permet d'utiliser le Store On Disk dans leur tMap. Cette feature permet de créer des fichiers temporaires sur disque.

Connaissant un peu Datastage, cet outils passe forcément par un fichier de hash, donc pas de problème de mémoire, même si les performances sont ainsi moins bonnes.

J'ai donc réussi à réaliser mes transformations sur Talend et Datastage avec 5 000 000 de lignes en lookup. J'aimerais savoir comment je pourrais faire de même avec Kettle.

Merci d'avance.

**samatar** · 28/08/2008, 20h02

Bonjour,

L'étape ''Recherche dans flux'' travaille uniquement en mémoire!
Pour ton exemple, utilises plutôt l'étape "Jointure comparaison lignes".
Mais avant, il faut trier les flux suivants les champs de recherche.

samatar

Lookup et Volumétrie

kettle/PDI

Discussions similaires

Partager

Partager