Traitement 8 millions de ligne

**dexedrine** · 20/04/2012, 17h23

Bonjour à tous,

Actuellement en début de stage sur Talend, je commence à perdre espoir.
J'essaye de réaliser un traitement existant sous ODI qui concerne 3 tables:
Ressource_header : 2.5 millions de ligne
Ressource_line : 2.5 millions de ligne
Ressource_thirds : 8 millions de ligne

Lorsque j'éxécute ce traitement, j'ai plusieurs et différentes erreurs :
- problème de heap size java
- java.util.ConcurrentModificationException talend

Vous trouverez en pj mon job (qui ne me semble pas très bien fait...). J'ai essayé de minimiser les données avec des tfiltercolumns.
Mes jointures sont faites directement dans ma tMap et mes filtres dans les tFilterRows(pour diminuer les entrées dans mes tMap).

Avant d'utiliser les tFilterColumns, j'ai tenté de modifier directement le select de la requête SQL mais sans succès, il y avait une erreur comme quoi il manquait un mot alors que la requête fonctionnait parfaitement sous PL/SQL developer.

J'ai déjà modifier le fichier TOS_DI-win-x86.ini :
-vmargs
-Xms256m
-Xmx1024m
-XX:MaxPermSize=256m
ce qui m'a donné java.util.ConcurrentModificationException talend

L'erreur vient forcément de ma mauvaise manipulation de l'outil puisque, normalement, Talend est capable de rivaliser avec ODI et je pense que 8millions de ligne c'est pas la mort...

Mes jointures se font sur deux champs
h.chmp1=l.chmp1 h.chmp2=l.chmp2
h.chmp1=t.chmp1 h.chmp2=t.chmp2
Le premier traitement qui se déclenche est line=>filtercolumns=>filterRows
Le second (celui qui pose problème ) thirds=>filterColumns_2

Comment régler ou contourner ce problème récurrent ? Que faire pour réussir à traiter un gros volumes de données ? Comment optimiser mon job (je ne trouve aucun exemple...)?

J'utilise "Talend Open Studio for Data Integration"
Version: 5.0.2
Build id: r78327-20120216-0244
Pc avec Windows xp pro SP3, 3Go de Ram

Merci d'avance pour votre aide !

Dex

**haskouse** · 23/04/2012, 16h21

Si j'ai bien compris ton job plante quand il est entrain de charger "thirds" et qui d'après ton message contient 8 millions de lignes.

Je pense que c'est normal d'avoir un JavaHeapSpace.

J'ai essayé une fois de charger une table de 3 millions de ligne est j'ai eu le même problème.

J'ai remédié au problème en utilisant un tOracleOutputBulk, mais moi je voulais faire des insertions, pour toi qui veut faire une lecture je ne connais pas de composant de traitement des données en masse.

Je ne vois que deux solutions:

Traiter les données par lot (million par million par exemple)
Augmenter la taille du JavaHeapSpace et par conséquent celle de ton poste.

**dexedrine** · 23/04/2012, 16h32

Bonjour,

Tout d'abord merci pour votre réponse. J'ai déjà tenté augmenter la taille de la jvm mais ça ne fonctionne pas et pour le moment je n'ai pas la possibilité d'augmenter la RAM de mon pc.
Par contre je suis interessée par le traitement par lot. Quel est le composant Talend qui permet ce traitement ?
Merci d'avance,
Dex

**haskouse** · 23/04/2012, 16h35

regarde ce billet si ça peut t'aider.
http://blog.smile.fr/Parallelisation...TL-avec-Talend

**NicolasTT** · 24/04/2012, 10h06

Bonjour,

J'ai également été confronté à cette problématique. J'ai pu obtenir le résultat souhaité en utilisant les 'prepare statement' (instructions préparés)?.

Je t'invite à lire la documentation Talend TalendOpenStudio_Components_RG_50a_FR.pdf, et notamment la page 689
concernant le scénario 'Scénario 2 : Utiliser l’instance PreparedStatement
pour faire une requête sur des données' qui te donnera tous les éléments pour utiliser les 'prepare statement'.

Bon courage,

**dexedrine** · 27/04/2012, 15h27

Bonjour,

Mon problème est toujours présent mais vient du fait que ma machine n'est pas assez puissante.

Sinon, j'ai réussi à avoir des améliorations de performances assez impressionnantes en :
- ajoutant des cursor à mes tables en input (tDBInput =>Composant=>paramètres avancés=> Utiliser un curseur)
- en activant les commit pour ma/mes tables en output (tDBOutput=>composant=>paramètres avancés=>commiter toutes les...)

Dex

Traitement 8 millions de ligne

Développement de jobs

Discussions similaires

Partager

Partager