Optimisation de boucles en pandas

**meuah** · 29/10/2015, 15h36

Bonjour à tous,

Je travaille actuellement en machine learning, dans lequel je peux intégrer du code python (langage que j'apprends en autodidacte)

Je vous explique ma problématique :

En entrée de mon code python, deux dataframes :

Mon dataframe1, qui contient 2 colonnes : ID client, et une probabilité prob_forest associée

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
ID       prob_forest
123         0.002
456         0.998
...             ...

La taille de ce fichier est variable (100 000 à plusieurs millions de lignes)

Dans mon dataframe2, 3 colonnes : prob_forest_quantized (centile d'une probabilité prob_forest), min et max, respectivement les bornes des probabilités sur le centile concerné :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
prob_forest_quantized  min      max
1                               0        0.012
2                             0.013    0.078
...
100                         0.962       1

Ce dataframe fera toujours au maximum 100 lignes

En sortie de ce code, j'aimerais obtenir mon dataframe1 enrichi de prob_forest_quantized en fonction des bornes du dataframe2 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
ID       prob_forest     prob_forest_quantized
123         0.002                  1
456         0.998                  100
...             ...                     ...

Pour cela, j'ai créé le code Python suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
def aml_main(dataframe1, dataframe2):
#longueur des tables
       l1=len(dataframe1)
       l2=len(dataframe2)
 
    # Initialisation
       dataframe1.loc[:,"prob_forest_quantized"]=0
 
    # pour chaque ligne du df1
       for i in xrange(l1):
              # Pour chaque ligne du df2
              for j in xrange(l2) :
                     # Si la valeur de la probabilité dans df1 est comprise entre les bornes min et max de la ligne j de df2
                     if dataframe1.loc[i, "prob_forest"]>=dataframe2.loc[j,"min"] and dataframe1.loc[i, "prob_forest"]<= dataframe2.loc[j, "max"] :
                            # définir la variable prob_forest_quantized de df1 avec la valeur de prob_forest_quantized de la ligne j de df2
                            dataframe1.loc[i, "prob_forest_quantized"]=dataframe2.loc[j,"prob_forest_quantized"]

Celui-ci fonctionne, mais avec les deux boucles + le if, c'est très long à tourner (ça tourne depuis actuellement 3h sur 4 codes Python en parallèle, sur un dataframe1 de 100 000 lignes).

Vous serait-il possible de m'aider à optimiser ce code? (grâce à des fonctions peut-être...)

Merci d'avance pour votre aide!

Bonne journée

**dividee** · 29/10/2015, 23h26

Je ne connais pas vraiment pandas, mais en me basant sur ce que je ferais en numpy, j'arrive à ceci dont tu devrais pouvoir t'inspirer:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
>>> import numpy as np
>>> import pandas as pd
>>> df1 = pd.DataFrame(np.random.randn(10,1), columns=["x"])
>>> df1
          x
0 -1.040534
1  1.431923
2 -2.430330
3  0.004224
4  0.924767
5  0.846549
6 -0.412876
7 -0.218280
8  0.243771
9  0.232233
 
[10 rows x 1 columns]
>>> df2 = pd.DataFrame([[-3,-2],[-2,-1],[-1,0],[0,1],[1,2],[2,3]],columns=("min","max"))
>>> df2
   min  max
0   -3   -2
1   -2   -1
2   -1    0
3    0    1
4    1    2
5    2    3
 
[6 rows x 2 columns]
>>> for i,(min,max) in df2.iterrows():
        df1.loc[(df1["x"] >= min) & (df1["x"] < max),"quant"] = i
 
>>> df1
          x  quant
0 -1.040534      1
1  1.431923      4
2 -2.430330      0
3  0.004224      3
4  0.924767      3
5  0.846549      3
6 -0.412876      2
7 -0.218280      2
8  0.243771      3
9  0.232233      3
 
[10 rows x 2 columns]

La seule boucle explicite est sur les lignes du second DataFrame (le plus petit), le reste est vectorisé par pandas/numpy.

**meuah** · 30/10/2015, 12h27

Merci! Je vais tester ça

**dividee** · 31/10/2015, 11h38

Probablement encore mieux, en utilisant numpy.digitize:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
>>> import numpy as np
>>> import pandas as pd
>>> df1 = pd.DataFrame(np.random.randn(10,1), columns=["x"])
>>> df2 = pd.DataFrame([[1,-3,-2],[2,-2,-1],[3,-1,0],[4,0,1],[5,1,2],[6,2,3]],columns=("prob","min","max"))
>>> df1.ix[:,"quant"] = df2.ix[np.digitize(df1["x"], df2["max"],right=True),"prob"].values
>>> df1
          x  quant
0 -1.410299      2
1 -1.205431      2
2  1.313114      5
3  1.616724      5
4  1.272656      5
5 -0.366515      3
6 -0.837589      3
7 -0.294710      3
8  0.838563      4
9 -0.522777      3
 
 
[10 rows x 2 columns]

Comme seule la colonne "max" de df2 est utilisée, j'ai mis "right=True" dans l'appel de digitize, ça semblait mieux coller avec les données que tu as postées.

**Dan737** · 02/11/2015, 13h19

Tu pourrais utiliser la fonction cut de pandas. En reprenant l'exemple de dividee

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
>>> df1 = pd.DataFrame(np.random.randn(10,1), columns=["x"])
>>> df2 = pd.DataFrame([[1,-3,-2],[2,-2,-1],[3,-1,0],[4,0,1],[5,1,2],[6,2,3]],columns=("prob","min","max"))
>>> bins = df2['min'].append(df2['max'].tail(1)) # On ajoute le max du dernier élément pour avoir tous nos bins
>>> bins
0   -3
1   -2
2   -1
3    0
4    1
5    2
5    3
>>> df1["quant"] = pd.cut(df1['x'], bins=bins, labels=df2['prob'])
>>> df1
          x quant
0  0.488248     4
1 -1.262740     2
2  1.928657     5
3  0.773359     4
4 -1.214497     2
5 -0.939815     3
6  0.398891     4
7 -2.561159     1
8 -1.210615     2
9  0.950369     4

**meuah** · 02/11/2015, 14h38

Hello,

Tout d'abord, merci pour vos réponses.
J'ai travaillé sur la première réponse de dividee, et ça fonctionne parfaitement!

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
#       dataframe1.loc[:,"prob_forest_quantized"]=0
       dataframe2 = dataframe2.set_index('prob_forest_quantized')
 
       for i, (min,max) in dataframe2.iterrows():
              dataframe1.loc[(dataframe1["prob_forest"] >= min) & (dataframe1["prob_forest"] < max),"prob_forest_quantized"] = i

Je passe le sujet en

mais je vais quand même tester les autres réponses.
Merci encore

Milou

Optimisation de boucles en pandas [Python 2.X]

Python

Discussions similaires

Partager

Partager