Bonjour ,
j'ouvre un fil de discussion car avant de rentrer dans des lignes et faire perdre du temps process et me disant que je ne suis pas au point je préfère me retourner vers quelqu'un qui a beaucoup plus d'expérience que moi dans l'utilisation de Pandas.
Suite à certaines limitations d'excel nombre de lignes et calculs de masses avec formules qui rament, je me suis tourné il y a un mois environ vers Python et l'ouverture que cela pouvait m'offrir en dehors ce que je peux faire pou mon travail.
j'ai installé anaconda et je me suis intéressé il y a peu à Pandas.
Mon "problème" est le suivant, sortir des statistiques de type percentiles, min, max, écart type... basés sur la somme et moyenne glissante sur 5 jours ouvrés, par exemple, des Volume et Value et par type d'instrument, en partant d'opérations d'opérations boursières de clients avec un horodatage de type Date-Heure.
Après avoir effectué des group_by, un resample(1D) un peu de tris et nettoyage (dates vides) j'obtiens ce qu'il y a en pièce jointe.
Je souhaiterai à partir de là calculer pour chaque 'ISIN' pour chaque 'Compte', tout en gardant l'information du type d'instrument (que j'utiliserai plus tard pour les stats), sa moyenne et sa somme glissante de 5 jours ouvrés, tenant compte qu'il y a des jours non traités.
J'ai 3 index car je supposais que ce serait peut être plus simple pour faire les calculs mais faire un reset_index() ne me dérange pas du tout.
Je partais n me disant je parcours les index un à un pour faire les calculs et je concatène tout dans une même base afin de faire mes statistiques, mais je sens bien que ca va mettre une éternité à tourner et j'imagine que tout doit pouvoir se résumer en 2/3 lignes maximum en connaissant bien l'outil...
J'ose imaginer que l'utilisation de rolling doit être appliqué là dedans mais je ne vois pas du tout comment faire.
En espérant avoir été clair, je vous remercie pour l'aide que vous pourrez m'apporter
marso
Partager