Optimisation temps de traitement avec pandas (boucle)

**meuah** · 25/08/2015, 10h26

Bonjour,

Je code sous Python depuis peu (apprentissage en autodidacte), et je cherche des moyens pour optimiser mon code car celui-ci risque de prendre en entrée de grosses volumétries.

J'ai vu qu'il était possible d'accélérer les temps de traitement en passant par du C (mon futur objectif!), mais en attendant, comment est-il possible d'optimiser par exemple le code suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
    for i in xrange(len(profil)) :
        if profil.loc[i, "GENDER"]==1:
            profil.loc[i, "top_fem"]=1
        elif profil.loc[i, "GENDER"] ==2:
            profil.loc[i, "top_hom"]=1

Ici, un dataframe nommé "profil". Sur ce dataframe, si la variable GENDER ==1 alors je crée une variable top_fem contenant la valeur 1. Si elle vaut 2, alors je crée la variable top_hom=1

J'ai tenté l'infructueux :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
        if profil.loc[:,"GENDER"]==1:
            profil.loc[:,"top_fem"]=1

Que me conseillez-vous pour optimiser cela? Car j'ai énormément de boucles dans ce style dans mon code.

Merci à vous

**Sve@r** · 25/08/2015, 11h14

Bonjour

Déjà le second test ne sert à rien. A moins qu'il y ait un 3° sexe, si "GENDER" n'est pas à 1 alors c'est qu'il est à 2. Donc tu peux écrire profil.loc[i, "top_fem" if profil.loc[i, "GENDER"]==1 else "top_hom"]=1.

Maintenant tu peux éviter ce "if" en positionnant tes valeurs dans une liste. Exemple

Code Python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
values=(None, "top_fem", "top_hom")    # Le "None" pour l'élément [0]
for i in xrange(len(profil)) :
    profil.loc[i, values[profil.loc[i, "GENDER"]]]=1

C'est pas mal rapide mais ça a l'inconvénient de faire "deviner" que la valeur "1" est pour les femmes et la "2" est pour les hommes. Et si ça change demain pour passer à "125" ça ne fonctionne plus (sauf à mettre 124 "None" entre les deux).

On peut alors utiliser à la place un dico fatalement un poil moins rapide que la liste (plus lourd à implémenter) mais quand-même bien efficace.

Code Python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
values={1 : "top_fem", 2 : "top_hom"}
for i in xrange(len(profil)) :
    profil.loc[i, values[profil.loc[i, "GENDER"]]]=1

Mais tu n'éviteras pas la boucle. Et même s'il y avait une instruction "magique" comme celle que tu as tenté, la boucle serait quand-même implémentée derrière...

Accessoirement je n'ai jamais vu ce style de syntaxe item[x, y]. Il se pourrait que tu aies fait erreur et que ce soit item[x][y]. Dans ce cas, le code serait

Code Python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
values={1 : "top_fem", 2 : "top_hom"}
for i in xrange(len(profil)) :
    profil.loc[i][values[profil.loc[i]["GENDER"]]]=1

Avec plusieurs accès à l'élément [i] qu'on peut éviter en itérant sur les éléments eux-mêmes au-lieu d'itérer sur les indices:

Code Python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
values={1 : "top_fem", 2 : "top_hom"}
for loc in profil.loc:
    loc[values[loc["GENDER"]]]=1

...

**meuah** · 25/08/2015, 11h26

Merci Sve@r

En effet, la variable GENDER a 4 modalités (0, 1, 2, 9), mais je ne veux créer des variables que pour les modalités 1 et 2, d'où mon "elif".
Merci pour les bouts de code, je vais tester ça et voir l'impact sur les temps de traitement.
Il est vrai que le top aurait été de supprimer la boucle, dans le style :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
if profil["GENDER"]==1:
            profil["top_fem"]=1

comme en SAS, mais bon, tant pis, je vais continuer avec mes ".loc" !

**wiztricks** · 25/08/2015, 20h56

Salut,

Un truc comme:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
profil["top_fem"][(profil["GENDER"]==1)] = 1
profil["top_hom"][(profil["GENDER"]==2)] = 1

mais je ne vois pas trop l'intérêt d'avoir 2 colonnes (top_fem et top_hom) calculées sur seulement un sous-ensemble.
note: on est dans les fonctionnalités de pandas qui demandent quelques notions de SGDB-R plutôt que Python "en général".

- W

**meuah** · 26/08/2015, 16h14

Merci Wiztricks,

Je te le testerai demain

**meuah** · 27/08/2015, 10h43

Salut Wiztricks,

J'ai pu tester ton code hier et il fonctionne très bien, et permet de m'éviter la boucle

Par contre, même si je comprends comment fonctionne ce bout de code au global (filtre, création et affectation de la valeur dans la colonne), la syntaxe ne m'est pas claire.

Je m'explique :

Je sais que

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

 profil[(profil["GENDER"]==1)]

permet de faire le filtre sur GENDER =1 dans le dataframe "profil".

Mais je ne comprends pas pourquoi le fait d'ajouter ["top_fem"] entre "profil" et "[(profil["GENDER"]==1)]" indique la création d'une nouvelle colonne
J'ai essayé de trouver des infos sur ce type de syntaxe mais je n'ai pas trouvé.
Aurais-tu un lien ou une explication à m'apporter sur le sujet? De sorte que je puisse expliquer à mon tour le contenu de cette syntaxe?

Je te remercie

Meuah

**wiztricks** · 27/08/2015, 11h33

Envoyé par meuah

Mais je ne comprends pas pourquoi le fait d'ajouter ["top_fem"] entre "profil" et "[(profil["GENDER"]==1)]" indique la création d'une nouvelle colonne

Effectivement, ça ne crée pas la colonne: il faut l'avoir créée avant.
Mais la vraie question était de savoir quel est l'intérêt de créer une colonne dont la valeur est "calculée" à partir d'autres colonnes.

- W

**meuah** · 27/08/2015, 11h49

En effet j'ai oublié de te répondre.
Le but de mon programme entier de te faire la mise en forme de données brutes afin de les faire entrer dans un score en régression logistique.
L'information GENDER concerne des individus, alors que mon score doit ensuite effectué au foyer (=groupement d'individus)
Comme le nombre d'individus est parfois aberrant (à cause de règles de déduplication), je crée des top_fem et top_hom pour qu'en faisant un regroupement au foyer, je ne garde qu'une information binaire sur le genre des individus qui le compose.

Optimisation temps de traitement avec pandas (boucle)

Python

Discussions similaires

Partager

Partager