Comment est-ce possible de saturer la mémoire avec un dataset de taille inférieure à la mémoire?

Version imprimable

Voir 40 message(s) de cette discussion en une page

25/01/2019, 11h58
disedorgue

Pour moi, oui, c'est normalque le "single-threaded" soit meilleur.

Concernant le cas de pandas : celui-ci doit tout faire en mémoire tandis que dask est plus adapté au distribué, c'est difficile de faire le comparatif.

Sur une énorme volumétrie et une multitude de calcul (ici, je parle en terme d'utilisation de clustering), je pense que dask sera gagnant car il est pensé pour ça.

Mais pour des cas où tout tient en mémoire, c'est pandas qui sera gagnant (enfin, c'est mon point de vu).
25/01/2019, 13h23
wiztricks

Citation:

Envoyé par AvySamaj

Bien que pour pandas il s'agisse d'un problème de disque dur?

Chargez le dataframe pandas directement: çà devrait être aussi rapide sinon plus et utiliserait moins de ressources.

- W

Mise à jour. Plus autant de latence.

J'ai continué à chercher et j'ai trouvé une solution qui fait que ça va aussi vite, selon le jour..., que pandas.
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 import dask.dataframe as dd import pandas as pd def fonction_df(game): try: df=dd.from_pandas(pd.DataFrame(course, index=[course['_id']]*len(course['classement'])), npartitions=4)# Après tatônnement 4 partitions dans ce cas de figure c'est un des facteurs de vitesse. On ne fait donc plus un dataframe pandas ==> df=pd.DataFrame(game, index=[game['_id']]*len(game['rank'])) return df except: print('problem with:{}'.format(game['_id'])) dfs=list(map(lambda game: fonction_df(game), games)) # list of dictionnaries where each one is a game df=delayed(pd.concat)(dfs,axis=0)# Ici on utilise pandas.concat et non plus dask.dataframe.concat, ainsi on respecte ce que préconise la doc df=dd.from_delayed(df)# Au lieu de faire compute() sur l'objet delayed on utilise la méthode from_delayed
Code:

1 2 %%time sys.getsizeof(df.compute(scheduler="single-threaded"))# 652 ms et 2307862bytes
Code:

1 2 %%time sys.getsizeof(pd.concat(dfs))# 477 ms et 2307862bytes /!\ pour se faire, la fonction fonction_df() reprend l'ancienne méthode df=pd.DataFrame(game, index=[game['_id']]*len(game['rank'])), sinon renvoit une erreur.
Il est aussi lourd que pandas.DataFrame quand on utilise la méthode compute() sur le dataframe de dask,mais en dehors il consomme beaucoup moins de mémoire, aujourd'hui il est un peu plus long pcq hier j'avais réussi à avoir les même temps:

Code:

sys.getsizeof(df)# 56 bytes

J'espère ne pas me tromper, mais avoir 56 bytes pour faire des calculs tel que:
Code:

1 2 3 4 5 6 7 8 import dask.dataframe as dd df = dd.read_parquet('...') data = df[['age', 'income', 'married']] labels = df['outcome'] from dask_ml.linear_model import LogisticRegression lr = LogisticRegression() lr.fit(data, labels)
source ici
ça prend toujours moins de place qu'un dataframe pandas qui va peser en permanence 2307862bytes dans la mémoire, et encore que je n'ai pas encore créé de dummy variables, pcq on se contente rarement de données brutes pour se lancer dans des modélisations. Ais-je raison de le penser?

26/01/2019, 18h02
disedorgue

Juste une question:

Tu définis une fonction fonction_df mais tu utilises fonction_df_dask, c'est normal ?

Citation:

Envoyé par disedorgue

Juste une question:

Tu définis une fonction fonction_df mais tu utilises fonction_df_dask, c'est normal ?

Ah pardon j'ai mal recopié à force d'avoir tripatouiller mon code je me suis emmêler les pinceaux dans l'édition mais j'ai bien vérifier dans mon notebook tout est ok et se déroule comme montré, je corrige ça de suite pour y mettre de la cohérence.

Par ailleurs dans le tout premier message j'ai effectivement fait cette erreur mais je ne peux pas le modifier malheureusement.
Code:

1 2 3 4 5 6 7 8 9 10 11 #Tout Premier Message/ Tout Premier Code def fonction_df(game): try: df=pd.DataFrame(game, index=[game['_id']]*len(game['rank'])) return df except: print('problem with:{}'.format(game['_id'])) dfs=list(map(lambda game: fonction_df_dask(game), ## /!\ erreur de copie, utilise bien la fonction fonction_df() ci-dessus games)) ##list of dictionnaries where each one is a game

27/01/2019, 12h39
wiztricks

Citation:

Envoyé par AvySamaj

Donc si je comprends bien, vouloir faire de l'out-of-core avec un seul disque dur à sa disposition c'est impossible? Est-ce qu'un disque dur externe branché par USB peut pallier à celà?

faire de l'out-of-core, c'est avoir un tas de données sur disque (ici votre collection MongoDB) et pouvoir découper ce gros tas en parties pouvant être lues et analysées "en parallèle".

Donc déjà, il faut arriver à dire à MongoDB que vous voulez balayer votre collection en parallèle et mettre en œuvre parallelCollectionScan à partir de pymongo.
Comme vous n'avez qu'un seul disque, çà va juste essayer de lire les données plus vite mais si le disque ne suit pas, çà risque d'être juste plus long.

La seule chose que vous pouvez faire, c'est lire les données d'un seul coup et paralléliser ensuite les opérations que vous faites dessus (pour autant que les opérations effectuées soient plus couteuses que la mise en œuvre de la parallélisation).

- W

Voir 40 message(s) de cette discussion en une page