1 pièce(s) jointe(s)
Tirage aléatoire avec nombre d'occurrence défini
Bonjour,
Je ne suis pas sûr que le titre soit très clair.
Je suis sous databricks et je cherche à créer un tirage aléatoire à partir de 2 dataframe.
Le premier (df_1) contient 2 colonnes : "contenant", "volume" et le deuxième (df_2) une colonne : "identifiant"
La colonne contenant contient un nombre de variables non fixe. Le volume est un entier.
L'identifiant un numéro.
Pièce jointe 645458
Je souhaite ajouter une colonne à df_2 pour que chaque valeur de "contenant" apparaisse x fois (sachant x est la valeur de "volume" correspondant dans df_1).
Lorsque le tirage est fixe (même volume pour tout le monde), je m'en suis bien tiré en créant une liste de répétition de type
Code:
1 2 3
| mavar_repeated = []
for valeur in mavar:
mavar_repeated.extend([valeur] * nombre_de_valeurs) |
Mais je n'arrive pas à aller plus loin.
J'ai bien essayé de travailler sur des dictionnaires ou avec une udf utilisant array, mais c'est très au dessus de mes compétences...
Je vous remercie pour votre aide.
Petite précision : dans df_2 : chaque identifiant est unique et le nombre d'identifiant correspond à la somme des volumes.