Bonjour,
j'ai à nouveau besoin d'aide sur un script python utilisant la librairie panda...
Je vais essayer d'être clair dans mes explications.
Dans un dataframe, j'ai 3 colonnes d'intérêts. Dans une 4ème colonne, je veux que la valeur d'une cellule corresponde à une des valeurs de mes 3 colonnes, selon une quantité (que j'obtiens par un value_count sur chacune de ces 3 colonnes).
Un petit schéma:

col1 col2 col3 col4
a b c c
d e f d
a b c c


J'y arrive en utilisant le code ci-dessous, mais c'est très long je trouve (10min pour traiter 10 000 lignes):

j'ajoute au dataframe des colonnes avec mes values_counts, ce qui donne dans l'exemple:
compte_col1 compte_col2 compte_col3
2                      2                     2
1                       1                      1
2                       2                         2
et j'obtiens la valeur de ma col4 par:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
for i in range(len(dataframe)):
    if compte_col1[i] > x:
        col4[i] = col1[i]
    elif compte_col2[i] > y:
        col4[i] = col2[i]
etc...

Dans mon code perso, j'ai un if avec un if imbriqué contenant lui-même 2 elif. Je pense qu'il y a une solution pour optimiser cela, mais je suis trop débutant pour voir laquelle...