Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > ETL > Talend
Talend Forum d'entraide sur Talend (Talend Open Studio, ...). Avant de poster --> FAQ Talend, Tutoriels Talend
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 26/05/2011, 16h12   #1
Invité de passage
 
Homme
Chef de projet MOA
Inscription : mai 2011
Messages : 1
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France, Val de Marne (Île de France)

Informations professionnelles :
Activité : Chef de projet MOA
Secteur : High Tech - Multimédia et Internet

Informations forums :
Inscription : mai 2011
Messages : 1
Points : 0
Points : 0
Par défaut Dédoublage des données

Bonjour à tous,

Je suis ultra nouveau sur talend et comme tout nouveau qui se respecte je suis bloqué.

Ma problématique :

J'ai x entrées (tFileInput et/ou MySQL) dans toutes mes entées j'ai des emails
et parfois il peut arriver que j'ai des doublons entre deux fichiers, entre un fichier et une table, voir même des doublons dans le même fichier.

Le but du jeu est d'arriver à la fin à avoir une seule liste sans doublon.

Pour corser le tout j'ai aussi une date associée à mes mails dans tous ses fichiers et je dois déterminer dans mon fichier en sortie, en fonction de la date, quel est la source originel d'un email.

Typiquement j'ai un email dans mon fichier abonné en date du 15/05/2011
mais j'ai le même email dans une liste d'inscrit à ma newsletter le 01/01/2011. Donc son origine serait "Newsletter".

J'ai vu qu'avec des conditions dans le tMap je peux arriver à ça mais est ce le mieux ?

Mais c'est surtout sur le dédoublonnage que je me pose des questions si vous pouvez m'aider ou me donner des pistes.

D'avance merci
_Talamasca_ est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 27/05/2011, 14h14   #2
Membre émérite
 
Homme Nicolas Saumande
Architecte Décisionnel
Inscription : février 2008
Messages : 693
Détails du profil
Informations personnelles :
Nom : Homme Nicolas Saumande
Âge : 36
Localisation : France, Haute Garonne (Midi Pyrénées)

Informations professionnelles :
Activité : Architecte Décisionnel

Informations forums :
Inscription : février 2008
Messages : 693
Points : 879
Points : 879
Bonjour,

Il existe un composant de dédoublonnage (tUniqRow), mais je ne sais pas trop comment il détermine les lignes qu'il garde...
Peut-être que ça vaudrait le coup de se pencher sur son fonctionnement ?

Sinon il est possible de gérer ça avec un tri suivi d'un tAggregateRow.
Je ne sais pas trop comment tu identifies que 2 email sont les mêmes ? Via le sujet ?
Il faut en tous cas trier sur cet identifiant et la date, la plus récente en premier par exemple, puis dans le tAggregateRow, tu définis le group by sur l'identifiant que tu as défini, et pour les autres champs en sortie tu utilises la fonction first.
Ainsi tu auras pour chaque mail les données de son occurrence la plus ancienne.

Nicolas
DevNico est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 16h52.


 
 
 
 
Partenaires

Hébergement Web