IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Membre régulier Avatar de _Agrid
    Profil pro
    Inscrit en
    novembre 2008
    Messages
    108
    Détails du profil
    Informations personnelles :
    Âge : 47
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : novembre 2008
    Messages : 108
    Points : 111
    Points
    111
    Par défaut [TALEND DI 7.2.1 ] - Création d'un fichier avec des données aléatoires depuis un CSV
    Bonjour à tous

    Je cherche à créer un jeu de données XLS

    J'ai téléchargé des datasets en CSV de prénoms et patronymes sur https://www.data.gouv.fr/fr/datasets...et-patronymes/

    J'ai également un fichier CSV comportant des pathologies

    Je souhaite créer un job générant 2000 enregistrements en piochant un prénom aléatoire du fichier, un nom aléatoire du fichier, une pathologie aléatoire du fichier et un age aléatoire ( 0<Age<95)
    Comment intégrer pondération dans les tirages (exemple : 20% de prénom masculin), le genre et la fréquence étant présente dans le fichier

    Comment procéderiez vous ?

    Je vous remercie

    _Agrid

  2. #2
    Candidat au Club
    Homme Profil pro
    Développeur Web
    Inscrit en
    avril 2020
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 32
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : avril 2020
    Messages : 3
    Points : 4
    Points
    4
    Par défaut
    Bonjour Agrid
    Le confinement des élèves de Poudlard se passe bien ?

    Pour ton problème, la solution qui me vient directement à l'esprit est de générer un nombre aléatoire (entre 1 et 5 par exemple) et de le comparer ensuite avec un nombre de cet intervalle.

    Exemple de ton [row_out.prénom] en sortie d'un tMap : (Numeric.random(1, 5) == 5? [row_in.prénom_masculin] : [row_in.prénom_féminin])
    Ainsi tu aurais 20% de chance d'avoir un prénom masculin.

    Il y a plein de solutions pour répondre à ton problème de pondération, et surement des meilleures ;-)

    Bon courage

  3. #3
    Membre régulier Avatar de _Agrid
    Profil pro
    Inscrit en
    novembre 2008
    Messages
    108
    Détails du profil
    Informations personnelles :
    Âge : 47
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : novembre 2008
    Messages : 108
    Points : 111
    Points
    111
    Par défaut
    Bonjour benoit_dev

    J'ai mis Touffu devant la porte pour garder tout le monde confiné dans l'école

    Je te remercie de ta réponse

    Ta solution me semble un bon début de réponse
    Je vais la tester

    Ce qui me m’embête dans cette méthode si je comprends bien, c'est que je fais un traitement par ligne itératif de test de condition ligne par ligne en commençant par le début du fichier
    J'avais imaginé plus un "curseur randomisé"

    D'autre part si mon fichier contient des proba dans une colonne pour chaque prénom comment le gères tu ?

    Exemple :

    Jean 0.3
    Robert 0.22
    Jackie 0.05
    Michel 0.02
    Perceval : 0.001
    ...
    Agrid : 0.001

    La somme des proba étant égale à 1

    Qu'en penses tu ?

    Merci

    _Agrid

  4. #4
    Candidat au Club
    Homme Profil pro
    Développeur Web
    Inscrit en
    avril 2020
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 32
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : avril 2020
    Messages : 3
    Points : 4
    Points
    4
    Par défaut
    Oui j'ai vu après avoir posté ma réponse que tu avais la répartition comme donnée.
    Je viens de regarder rapidement sur le net, il y aurait un composant qui pourrait faire l'affaire : tDuplicateRow. Je ne l'ai jamais mis en pratique ceci dit.

Discussions similaires

  1. [XL-2010] Création d'un graphe avec des données dynamiques
    Par ultrabody dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 05/02/2016, 12h31
  2. [Data] Création d'une session avec des données du runtime
    Par NeedToHelp dans le forum Spring
    Réponses: 2
    Dernier message: 17/07/2009, 11h13
  3. Réponses: 4
    Dernier message: 22/11/2007, 19h23
  4. [JAR]Création d'un JAR avec des dependances sous Eclipse
    Par muthnik dans le forum Eclipse Java
    Réponses: 4
    Dernier message: 05/07/2005, 17h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo