Bonjour.

J'essaie de calculer un champ nommé gap_in_numbers dans un dataframe avec pandas.
Le problème c'est que sur un échantillon de petite taille (3 individus, colonne Player) ça marche très bien, quand il s'agit du DataFrame de grande taille rien ne va plus.

Afin d'avoir un résultat reproductible je fourni le dataframe qui est un fichier sérialisé Pickle et le notebook Jupyter pour l’exécution du code.

J'ai tenté maintes solutions, elles se sont toujours soldées par un échec. J'ai bien du mal à comprendre pourquoi cette différence d'application.

Pandas version: 0.23.4 Python version: 3.7.4

Notes: J'ai bien une solution en soi, c'est de faire une liste de dataframes où chacun de ceux-ci représente un seul et unique Player. Ça marche bien, dans le sens que les résultats attendus ont lieu mais c'est très coûteux (en temps). Donc ce n'est pas comme si j'attendais que la solution tombe toute crue, juste que celles que je trouve ne sont pas optimales avec mes connaissances actuelles.