Optimisation temps de traitement avec pandas (boucle)

Version imprimable

25/08/2015, 10h26
meuah

Optimisation temps de traitement avec pandas (boucle)
Bonjour,

Je code sous Python depuis peu (apprentissage en autodidacte), et je cherche des moyens pour optimiser mon code car celui-ci risque de prendre en entrée de grosses volumétries.

J'ai vu qu'il était possible d'accélérer les temps de traitement en passant par du C (mon futur objectif!), mais en attendant, comment est-il possible d'optimiser par exemple le code suivant :
Code:

1 2 3 4 5 for i in xrange(len(profil)) : if profil.loc[i, "GENDER"]==1: profil.loc[i, "top_fem"]=1 elif profil.loc[i, "GENDER"] ==2: profil.loc[i, "top_hom"]=1
Ici, un dataframe nommé "profil". Sur ce dataframe, si la variable GENDER ==1 alors je crée une variable top_fem contenant la valeur 1. Si elle vaut 2, alors je crée la variable top_hom=1

J'ai tenté l'infructueux :
Code:

1 2 if profil.loc[:,"GENDER"]==1: profil.loc[:,"top_fem"]=1
Que me conseillez-vous pour optimiser cela? Car j'ai énormément de boucles dans ce style dans mon code.

Merci à vous :)
25/08/2015, 11h14
Sve@r
Bonjour

Déjà le second test ne sert à rien. A moins qu'il y ait un 3° sexe, si "GENDER" n'est pas à 1 alors c'est qu'il est à 2. Donc tu peux écrire profil.loc[i, "top_fem" if profil.loc[i, "GENDER"]==1 else "top_hom"]=1.

Maintenant tu peux éviter ce "if" en positionnant tes valeurs dans une liste. Exemple
Code:

1 2 3 values=(None, "top_fem", "top_hom") # Le "None" pour l'élément [0] for i in xrange(len(profil)) : profil.loc[i, values[profil.loc[i, "GENDER"]]]=1
C'est pas mal rapide mais ça a l'inconvénient de faire "deviner" que la valeur "1" est pour les femmes et la "2" est pour les hommes. Et si ça change demain pour passer à "125" ça ne fonctionne plus (sauf à mettre 124 "None" entre les deux).

On peut alors utiliser à la place un dico fatalement un poil moins rapide que la liste (plus lourd à implémenter) mais quand-même bien efficace.
Code:

1 2 3 values={1 : "top_fem", 2 : "top_hom"} for i in xrange(len(profil)) : profil.loc[i, values[profil.loc[i, "GENDER"]]]=1
Mais tu n'éviteras pas la boucle. Et même s'il y avait une instruction "magique" comme celle que tu as tenté, la boucle serait quand-même implémentée derrière...

Accessoirement je n'ai jamais vu ce style de syntaxe item[x, y]. Il se pourrait que tu aies fait erreur et que ce soit item[x][y]. Dans ce cas, le code serait
Code:

1 2 3 values={1 : "top_fem", 2 : "top_hom"} for i in xrange(len(profil)) : profil.loc[i][values[profil.loc[i]["GENDER"]]]=1
Avec plusieurs accès à l'élément [i] qu'on peut éviter en itérant sur les éléments eux-mêmes au-lieu d'itérer sur les indices:
Code:

1 2 3 values={1 : "top_fem", 2 : "top_hom"} for loc in profil.loc: loc[values[loc["GENDER"]]]=1
...
25/08/2015, 11h26
meuah
Merci Sve@r

En effet, la variable GENDER a 4 modalités (0, 1, 2, 9), mais je ne veux créer des variables que pour les modalités 1 et 2, d'où mon "elif".
Merci pour les bouts de code, je vais tester ça et voir l'impact sur les temps de traitement.
Il est vrai que le top aurait été de supprimer la boucle, dans le style :
Code:

1 2 3 if profil["GENDER"]==1: profil["top_fem"]=1
comme en SAS, mais bon, tant pis, je vais continuer avec mes ".loc" !
25/08/2015, 20h56
wiztricks
Salut,

Un truc comme:
Code:

1 2 profil["top_fem"][(profil["GENDER"]==1)] = 1 profil["top_hom"][(profil["GENDER"]==2)] = 1
mais je ne vois pas trop l'intérêt d'avoir 2 colonnes (top_fem et top_hom) calculées sur seulement un sous-ensemble.
note: on est dans les fonctionnalités de pandas qui demandent quelques notions de SGDB-R plutôt que Python "en général".

- W
26/08/2015, 16h14
meuah

Merci Wiztricks,

Je te le testerai demain :)
27/08/2015, 10h43
meuah

Salut Wiztricks,

J'ai pu tester ton code hier et il fonctionne très bien, et permet de m'éviter la boucle :king:
Par contre, même si je comprends comment fonctionne ce bout de code au global (filtre, création et affectation de la valeur dans la colonne), la syntaxe ne m'est pas claire.

Je m'explique :

Je sais que

Code:

profil[(profil["GENDER"]==1)]

permet de faire le filtre sur GENDER =1 dans le dataframe "profil".

Mais je ne comprends pas pourquoi le fait d'ajouter ["top_fem"] entre "profil" et "[(profil["GENDER"]==1)]" indique la création d'une nouvelle colonne
J'ai essayé de trouver des infos sur ce type de syntaxe mais je n'ai pas trouvé.
Aurais-tu un lien ou une explication à m'apporter sur le sujet? De sorte que je puisse expliquer à mon tour le contenu de cette syntaxe?

Je te remercie

Meuah
27/08/2015, 11h33
wiztricks

Citation:

Envoyé par meuah

Mais je ne comprends pas pourquoi le fait d'ajouter ["top_fem"] entre "profil" et "[(profil["GENDER"]==1)]" indique la création d'une nouvelle colonne

Effectivement, ça ne crée pas la colonne: il faut l'avoir créée avant.
Mais la vraie question était de savoir quel est l'intérêt de créer une colonne dont la valeur est "calculée" à partir d'autres colonnes.

- W
27/08/2015, 11h49
meuah

En effet j'ai oublié de te répondre.
Le but de mon programme entier de te faire la mise en forme de données brutes afin de les faire entrer dans un score en régression logistique.
L'information GENDER concerne des individus, alors que mon score doit ensuite effectué au foyer (=groupement d'individus)
Comme le nombre d'individus est parfois aberrant (à cause de règles de déduplication), je crée des top_fem et top_hom pour qu'en faisant un regroupement au foyer, je ne garde qu'une information binaire sur le genre des individus qui le compose.