Noyau qui plante / Big Database

Version imprimable

20/04/2020, 10h31
antoya

Noyau qui plante / Big Database
Bonjour à tous !
Alors voici mon problème, Je souhaite lire une base de données en plusieurs tronçons puis les assemblés en un DataFrame.
J'utilise pour cela read_csv() ainsi que chunksize= 1000000 (Je ne sais pas combien de lignes contient la base mais c'est très gros).

J'utilise ensuite :
Code:

1 2 3 4 chunk_list =[] for chunk in df: chunk_list.append(chunk) df_concat=pd.concat(chunk_list)
Mais à ce moment là, la ram augmente jusqu'à son maximum et ensuite mon notebook m'indique que le noyau a planté.
Comment puis-je faire pour lire cette base de données en plusieurs parties et ensuite la rassembler en un en optimisant la ressource mémoire.
Merci beaucoup :)
20/04/2020, 10h39
fred1599

Si tu gardes ces informations dans la pile, c'est le risque, mais pourquoi ne pas faire le traitement de ces informations à chaque lecture de ligne par exemple ?

Mais je suis quand même surpris que

Code:

df = pd.read_csv("monfichier.csv")

ne suffise pas.
20/04/2020, 10h47
antoya

Je n'ai pas tout à fait compris où tu voulais en venir.

J'ai accès à des serveurs de 8,16 et 32go de RAM avec processeur 16 cores. Peut être qu'en choisissant un serveur avec plus de ram cela pourrait fonctionner mais j'en doute.
Ca me bloque dès la lecture de la base pas très pratique ahah*

Sinon dans ces bases je n'ai besoin que de certaines colonnes est-il possible de ne selectionner que certaines colonnes pendant la lecture ?
20/04/2020, 11h06
wiztricks

Salut,

Citation:

Envoyé par antoya

Comment puis-je faire pour lire cette base de données en plusieurs parties et ensuite la rassembler en un en optimisant la ressource mémoire.

Si c'est trop gros pour rentrer en mémoire (avec un système 64 bits, pas sûr que ce soit la RAM qui limite), lire par chunksize va aider si vous "filtrez" les données qui vous intéressent (et qu'il en reste moins à traiter).

Sinon, lire par morceau ou tout d'un coup, demandera le même espace mémoire.

- W
20/04/2020, 11h10
antoya

Merci pour la réponse
Cependant j'ai besoin de lire toutes les données mais seulement quelques colonnes parmi celles-ci.
Est-il possible de ne lire que quelques colonnes mais toutes les lignes dans read_csv() (Je n'ai jamais vu cela mais je préfère demander)
20/04/2020, 11h17
fred1599

Ce n'est sans doute pas dans un fichier csv que ces données auraient leur place, mais dans une BDD type PostgreSQL par exemple.
Avec des requêtes SQL tu aurais eu les colonnes facilement et surtout rapidement.
20/04/2020, 11h17
wiztricks

Citation:

Envoyé par antoya

Est-il possible de ne lire que quelques colonnes mais toutes les lignes dans read_csv() (Je n'ai jamais vu cela mais je préfère demander)

C'est tout l'intérêt de lire par chunk: garder les données qui vous intéressent (ou éliminer celles que vous ne voulez pas). Pour des exemples, cherchez un peu sur Internet.

- W
20/04/2020, 11h31
antoya

Citation:

Envoyé par fred1599

Ce n'est sans doute pas dans un fichier csv que ces données auraient leur place, mais dans une BDD type PostgreSQL par exemple.
Avec des requêtes SQL tu aurais eu les colonnes facilement et surtout rapidement.

C'est sûr !
20/04/2020, 11h34
antoya

Citation:

Envoyé par wiztricks

C'est tout l'intérêt de lire par chunk: garder les données qui vous intéressent (ou éliminer celles que vous ne voulez pas). Pour des exemples, cherchez un peu sur Internet.

- W

Justement dans le code en haut j'essaye de lire chaque chunk créé puis de l'insérer dans un liste pour le transformer en DataFrame.
Les exemples d'internet utilisent des chunks de quelques milliers de lignes mais pratiquement jamais à plus d'un million et sur une petite base aucun problème.
Est-ce qu'il y a moyen d'optimiser ce code ou utiliser une boucle performante qui puisse lire chaque chunk et l'intégrer dans un seul ou plusieurs DataFrames.
20/04/2020, 12h31
wiztricks

Salut,

Citation:

Envoyé par antoya

Justement dans le code en haut j'essaye de lire chaque chunk créé puis de l'insérer dans un liste pour le transformer en DataFrame.

Je vous ai déjà répondu: si vous ne filtrez rien, vous aurez la même chose à stocker qu'en lisant tout d'un coup...

Et stocker dans plusieurs dataframes ne consommera pas moins de mémoire.

- W
20/04/2020, 13h44
flapili

bonjour,

comme on ne sais pas ce que voulez faire et pas de contexte difficile d'aider, si ça se trouve vous voulez juste trier le CSV en enlevant certaines colonnes (simple supposition).