enchainement de conditions sur dataframe

**ben124** · 06/06/2019, 02h05

Bonjour,
j'ai à nouveau besoin d'aide sur un script python utilisant la librairie panda...
Je vais essayer d'être clair dans mes explications.
Dans un dataframe, j'ai 3 colonnes d'intérêts. Dans une 4ème colonne, je veux que la valeur d'une cellule corresponde à une des valeurs de mes 3 colonnes, selon une quantité (que j'obtiens par un value_count sur chacune de ces 3 colonnes).
Un petit schéma:

col1	col2	col3	col4
a	b	c	c
d	e	f	d
a	b	c	c

J'y arrive en utilisant le code ci-dessous, mais c'est très long je trouve (10min pour traiter 10 000 lignes):

j'ajoute au dataframe des colonnes avec mes values_counts, ce qui donne dans l'exemple:

compte_col1 compte_col2 compte_col3
2                      2                     2
1                       1                      1
2                       2                         2

et j'obtiens la valeur de ma col4 par:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
for i in range(len(dataframe)):
    if compte_col1[i] > x:
        col4[i] = col1[i]
    elif compte_col2[i] > y:
        col4[i] = col2[i]

etc...

Dans mon code perso, j'ai un if avec un if imbriqué contenant lui-même 2 elif. Je pense qu'il y a une solution pour optimiser cela, mais je suis trop débutant pour voir laquelle...

**BufferBob** · 07/06/2019, 15h55

salut,

perso j'ai du mal à comprendre ce que tu fais, ça n'a pas l'air très compliqué mais c'est très mal expliqué

si tu peux reformuler à l'occasion, prendre un exemple plus parlant...

quant à ton code tu fais une boucle i que tu n'utilises pas, on ne sait pas ce que valent x et y, ni ce qu'il doit se passer dans le cas où aucune des conditions ne valide

**ben124** · 07/06/2019, 19h43

J'ai rajouté les i dans ma boucle.

x et y correspond à des valeurs d'un value_count.
En gros, j'ai des variables qualitatives dans plusieurs colonnes de mon dataframe (ex: couleur des yeux: bleu, vert, jaune; fruits préférés: mangue, pêche, abricot). Je compte le nombre total de chacune des valeurs de chaque variable (ex: 2 jaunes 3 verts 6 bleus; 5 mangues, 2 pêches, 4 abricots).
En fonction de ces comptes, et pour chaque ligne, je vais attribuer telle ou telle valeur dans une autre colonne de mon dataframe, qu'on appellera target.
ex: ligne 1: yeux jaunes et fruit = mangue; une de mes conditions dit if compte_fruit_prefere[ma ligne] > 3 alors la valeur affichée dans ma target sera celle de la colonne fruit_preferee, sinon ce sera la couleur des yeux (pour cette ligne, ce sera mangue dans ma target).

Je ne sais pas si c'est plus clair avec cet exemple purement fictif (et un peu absurde)... Pour être plus précis, mes variables qualitatives décrivent la même chose (une localisation de maladie) mais à un niveau de précision différent (localisation au niveau de l'organe, au niveau du tissu, au niveau de la cellule). Plus le niveau de précision augmente, plus il y a de modalités et donc plus les données sont éparpillées. De fait, je cherche le bon équilibre entre précision et représentativité de ma target: si il n'y a pas assez de valeurs pour ce degré de précision, alors on passe au niveau au-dessus (moins précis mais avec plus de données).
Je dois donc avoir le compte de chaque modalité de mes variables qualitatives. Et en fonction de ce compte (de ma quantité de données, témoin de leur représentativité), je vais attribuer telle ou telle valeur à ma variable target.

Il faut implémenter tte les conditions possibles, il n'y en a pas tant que ça puisque mes intervalles sont larges (avec mes vraies données, je distingue les modalités que l'on retrouve 300 fois et plus, entre 50 et 300, et moins de 50).

**BufferBob** · 09/06/2019, 23h45

salut,

un truc comme ça fonctionne chez moi (rapidement) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import pandas as pd
 
x = 2
y = 1
 
# on génère un dataframe de 10K lignes
tochar = pd.np.vectorize(chr)
df = pd.DataFrame(tochar(pd.np.random.randint(97, 123, 30000).reshape(10000, 3)), columns=['col1', 'col2', 'col3'])
 
# on crée nos colonnes additionnelles
df['compte_col1'] = df[df.apply(lambda x:x==df['col1'])].count(axis=1)
df['compte_col2'] = df[df.apply(lambda x:x==df['col2'])].count(axis=1)
df['compte_col3'] = df[df.apply(lambda x:x==df['col3'])].count(axis=1)
 
# la fonction de callback qui nous intéresse
def f(row):
   if row['compte_col1'] > x:
      r = row['col1']
   elif row['compte_col2'] > y:
      r = row['col2']
   else:
      r = pd.np.nan
   return r
 
# on crée la colonne 'col4'
df['col4'] = df.apply(f, axis=1)

et le résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
>>> df.head()
  col1 col2 col3  compte_col1  compte_col2  compte_col3 col4
0    d    c    f            1            1            1  NaN
1    b    f    a            1            1            1  NaN
2    f    a    a            1            2            2    a
3    a    c    a            2            1            2  NaN
4    d    d    e            2            2            1    d
 
>>> df[df['col4'].notnull()].head()
   col1 col2 col3  compte_col1  compte_col2  compte_col3 col4
2     f    a    a            1            2            2    a
4     d    d    e            2            2            1    d
5     b    a    a            1            2            2    a
12    b    c    c            1            2            2    c
14    a    e    e            1            2            2    e

enchainement de conditions sur dataframe

Python

Vue hybride

Discussions similaires

Partager

Partager