Bonjour,
j'ai à nouveau besoin d'aide sur un script python utilisant la librairie panda...
Je vais essayer d'être clair dans mes explications.
Dans un dataframe, j'ai 3 colonnes d'intérêts. Dans une 4ème colonne, je veux que la valeur d'une cellule corresponde à une des valeurs de mes 3 colonnes, selon une quantité (que j'obtiens par un value_count sur chacune de ces 3 colonnes).
Un petit schéma:
col1 |
col2 |
col3 |
col4 |
a |
b |
c |
c |
d |
e |
f |
d |
a |
b |
c |
c |
J'y arrive en utilisant le code ci-dessous, mais c'est très long je trouve (10min pour traiter 10 000 lignes):
j'ajoute au dataframe des colonnes avec mes values_counts, ce qui donne dans l'exemple:
compte_col1 compte_col2 compte_col3
2 2 2
1 1 1
2 2 2
et j'obtiens la valeur de ma col4 par:
1 2 3 4 5
| for i in range(len(dataframe)):
if compte_col1[i] > x:
col4[i] = col1[i]
elif compte_col2[i] > y:
col4[i] = col2[i] |
etc...
Dans mon code perso, j'ai un if avec un if imbriqué contenant lui-même 2 elif. Je pense qu'il y a une solution pour optimiser cela, mais je suis trop débutant pour voir laquelle...
Partager