Delimiter Missing CSV

**sylvanas.quan** · 01/12/2015, 18h11

Bonjour,

Je transfert une grande volume de données qui est plus de 200 millions lignes d'enregistrements.
J'extraire les données d'Oracle dans un fichier csv, le charger dans S3 et puis finalement dans AWS Redshift.
Mais des fois les séparateurs me manquent.
Nom : DELIMITER MISSING.JPG
Affichages : 168
Taille : 52,5 Ko

Nom : DELIMITER MISSING.JPG
Affichages : 168
Taille : 52,5 Ko

J'ai bien mis "escape" et "delimiter as" dans mon PSQL mais je ne sais pas si ça marche toutes les fois et comment pourrai-je éviter ce problème étant donné la volume est vraiment grosse et ça me gène de le re-tester tout le temps.

Merci par avance pour votre aide.
Cordialement,
Sylvanas

**emenuet** · 03/12/2015, 13h58

Bonjour,

Tu parles de PLSQL pour faire tes fichiers. Tu devrais utiliser un job Talend pour faire l'extraction avec un tOracleInput -> tMap-> tFileOutputDelimited. Comme cela les fichiers écrit par Talend seront plus facile a lire par Talend avec le composant tFileInputDelimited. Tu choisis toi même ton séparateurs de ligne et de colonne.

D’après ton screenshot, il semble que tu ais des problèmes de qualité de donnée.

**sylvanas.quan** · 03/12/2015, 15h20

Envoyé par emenuet

Bonjour,

Tu parles de PLSQL pour faire tes fichiers. Tu devrais utiliser un job Talend pour faire l'extraction avec un tOracleInput -> tMap-> tFileOutputDelimited. Comme cela les fichiers écrit par Talend seront plus facile a lire par Talend avec le composant tFileInputDelimited. Tu choisis toi même ton séparateurs de ligne et de colonne.

D’après ton screenshot, il semble que tu ais des problèmes de qualité de donnée.

Bonjour Emeunuet,

Merci pour ta réponse.
J'ai utilisé tOracleInput -> tFileOutputDelimited dans Talend et j'ai choisi moi même les séparateurs sans utiliser tMap.
C'est quoi l'intéret d'utiliser tMap ici ? je ne change pas les données.
Et est-ce que ça va casser la performance d'extraire avec le tMap?

**emenuet** · 03/12/2015, 16h54

Bonjour,

J'utilise toujours un tMap au cas ou pour la maintenance. Mais surtout pour pouvoir utiliser les métadatas sur le composant Input et sur le composant Output.
Le composant tMap ne ralentit pas le traitement dans ce cas la.

**sylvanas.quan** · 03/12/2015, 17h26

Envoyé par emenuet

Bonjour,

J'utilise toujours un tMap au cas ou pour la maintenance. Mais surtout pour pouvoir utiliser les métadatas sur le composant Input et sur le composant Output.
Le composant tMap ne ralentit pas le traitement dans ce cas la.

Ok, merci ^^ je vais tester si avec tMap qu'il ne va pas perdre mon séparateur.
Et en fait j'ai une autre question :

J'ai créé une table de suivi pour le transfert dans laquelle une ligne est insérée à chaque exécution d’un sous job.
Pour la première fois je veux alimenter mes données à partir d'un an avant. Mais après, je veux qu'il alimente les données qui commencent par le temps de la fin de la dernière d'exécution et finiras au sysdate.
J'ai réussi à le faire mais dans deux jobs séparés.

Maintenant j'essaie de rajouter une condition pour que je puisse tout faire dans un job : dans un premier cas, alimenter d'un an avant jusqu'à une certaine date; un autre pour l'alimentation régulière à partir de la dernière end date jusqu'au sysdate.

J'ai mis ainsi une condition dans tJavaRow:
if (!Relational.ISNULL(input_row.ENDREQUESTDATE)) {
globalMap.put("start_requete", input_row.ENDREQUESTDATE);}
else { globalMap.put("start_requete", TalendDate.setDate(TalendDate.getCurrentDate(), -365, "dd"));}

if (!Relational.ISNULL(input_row.RUNID)){
globalMap.put("maxRunid", input_row.RUNID);}
else {globalMap.put("maxRunid", 0);}
Integer counter_id = (Integer)globalMap.get("maxRunid");
globalMap.put("maxRunid", new Integer(counter_id.intValue()+1));

Qui n'a pas marché.
J'ai changé la condition comme null == input_row.X, il m'a dit "==" n'est pas défini pour un objet null ...
Je fais une condition dans tMap avant d'entrer dans tJavaRow en limitant :
row1.RUNID != null ? row1.RUNID : 0
row1.ENDREQUESTDATE == null ? TalendDate.setDate(TalendDate.getCurrentDate(), -365, "dd") : row1.ENDREQUESTDATE

Sachant que :
globalMap.put("start_requete",TalendDate.setDate(input_row.ENDREQUESTDATE, -5, "mm"));
globalMap.put("maxRunid", input_row.RUNID);
Integer counter_id = (Integer)globalMap.get("maxRunid");
globalMap.put("maxRunid", new Integer(counter_id.intValue()+1));
marche très bien quand ce n'est pas null dans mon job régulier.
C'est le code que j'ai mis dans job régulier mais ma tutrice trouve ça pénible de créer deux jobs pour un processus.
Mais j'arrive pas à mettre la condition en oeuvre...

Delimiter Missing CSV

Développement de jobs

Discussions similaires

Partager

Partager