[TALEND DI 7.2.1 ] - Création d'un fichier avec des données aléatoires depuis un CSV

**_Agrid** · 23/03/2020, 16h08

Bonjour à tous

Je cherche à créer un jeu de données XLS

J'ai téléchargé des datasets en CSV de prénoms et patronymes sur https://www.data.gouv.fr/fr/datasets...et-patronymes/

J'ai également un fichier CSV comportant des pathologies

Je souhaite créer un job générant 2000 enregistrements en piochant un prénom aléatoire du fichier, un nom aléatoire du fichier, une pathologie aléatoire du fichier et un age aléatoire ( 0<Age<95)
Comment intégrer pondération dans les tirages (exemple : 20% de prénom masculin), le genre et la fréquence étant présente dans le fichier

Comment procéderiez vous ?

Je vous remercie

_Agrid

**benoit_dev** · 01/05/2020, 08h59

Bonjour Agrid
Le confinement des élèves de Poudlard se passe bien ?

Pour ton problème, la solution qui me vient directement à l'esprit est de générer un nombre aléatoire (entre 1 et 5 par exemple) et de le comparer ensuite avec un nombre de cet intervalle.

Exemple de ton [row_out.prénom] en sortie d'un tMap : (Numeric.random(1, 5) == 5? [row_in.prénom_masculin] : [row_in.prénom_féminin])
Ainsi tu aurais 20% de chance d'avoir un prénom masculin.

Il y a plein de solutions pour répondre à ton problème de pondération, et surement des meilleures ;-)

Bon courage

**_Agrid** · 01/05/2020, 10h10

Bonjour benoit_dev

J'ai mis Touffu devant la porte pour garder tout le monde confiné dans l'école

Je te remercie de ta réponse

Ta solution me semble un bon début de réponse
Je vais la tester

Ce qui me m’embête dans cette méthode si je comprends bien, c'est que je fais un traitement par ligne itératif de test de condition ligne par ligne en commençant par le début du fichier
J'avais imaginé plus un "curseur randomisé"

D'autre part si mon fichier contient des proba dans une colonne pour chaque prénom comment le gères tu ?

Exemple :

Jean 0.3
Robert 0.22
Jackie 0.05
Michel 0.02
Perceval : 0.001
...
Agrid : 0.001

La somme des proba étant égale à 1

Qu'en penses tu ?

Merci

_Agrid

**benoit_dev** · 01/05/2020, 11h21

Oui j'ai vu après avoir posté ma réponse que tu avais la répartition comme donnée.
Je viens de regarder rapidement sur le net, il y aurait un composant qui pourrait faire l'affaire : tDuplicateRow. Je ne l'ai jamais mis en pratique ceci dit.

[TALEND DI 7.2.1 ] - Création d'un fichier avec des données aléatoires depuis un CSV

Développement de jobs

Discussions similaires

Partager

Partager