Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Membre régulier
    [TALEND DI 7.2.1 ] - Création d'un fichier avec des données aléatoires depuis un CSV
    Bonjour à tous

    Je cherche à créer un jeu de données XLS

    J'ai téléchargé des datasets en CSV de prénoms et patronymes sur https://www.data.gouv.fr/fr/datasets...et-patronymes/

    J'ai également un fichier CSV comportant des pathologies

    Je souhaite créer un job générant 2000 enregistrements en piochant un prénom aléatoire du fichier, un nom aléatoire du fichier, une pathologie aléatoire du fichier et un age aléatoire ( 0<Age<95)
    Comment intégrer pondération dans les tirages (exemple : 20% de prénom masculin), le genre et la fréquence étant présente dans le fichier

    Comment procéderiez vous ?

    Je vous remercie

    _Agrid

  2. #2
    Candidat au Club
    Bonjour Agrid
    Le confinement des élèves de Poudlard se passe bien ?

    Pour ton problème, la solution qui me vient directement à l'esprit est de générer un nombre aléatoire (entre 1 et 5 par exemple) et de le comparer ensuite avec un nombre de cet intervalle.

    Exemple de ton [row_out.prénom] en sortie d'un tMap : (Numeric.random(1, 5) == 5? [row_in.prénom_masculin] : [row_in.prénom_féminin])
    Ainsi tu aurais 20% de chance d'avoir un prénom masculin.

    Il y a plein de solutions pour répondre à ton problème de pondération, et surement des meilleures ;-)

    Bon courage

  3. #3
    Membre régulier
    Bonjour benoit_dev

    J'ai mis Touffu devant la porte pour garder tout le monde confiné dans l'école

    Je te remercie de ta réponse

    Ta solution me semble un bon début de réponse
    Je vais la tester

    Ce qui me m’embête dans cette méthode si je comprends bien, c'est que je fais un traitement par ligne itératif de test de condition ligne par ligne en commençant par le début du fichier
    J'avais imaginé plus un "curseur randomisé"

    D'autre part si mon fichier contient des proba dans une colonne pour chaque prénom comment le gères tu ?

    Exemple :

    Jean 0.3
    Robert 0.22
    Jackie 0.05
    Michel 0.02
    Perceval : 0.001
    ...
    Agrid : 0.001

    La somme des proba étant égale à 1

    Qu'en penses tu ?

    Merci

    _Agrid

  4. #4
    Candidat au Club
    Oui j'ai vu après avoir posté ma réponse que tu avais la répartition comme donnée.
    Je viens de regarder rapidement sur le net, il y aurait un composant qui pourrait faire l'affaire : tDuplicateRow. Je ne l'ai jamais mis en pratique ceci dit.

###raw>template_hook.ano_emploi###