Lire grand fichier csv ligne par ligne

**Hister** · 29/06/2018, 12h02

Bonjour j'ai un énorme fichier csv (1GB) qui peut être mis à jour (le serveur ajoute souvent une nouvelle valeur).

Je veux en python lire ce fichier ligne par ligne (ne pas charger tous les fichiers en mémoire) et je veux lire ceci en "temps réel".

voici un exemple de mon fichier csv :

dans un premier je veux obtenir l'en-tête de fichier (nom des colonnes) dans mon exemple je veux obtenir ce : id,nom,nom de famille
et dans le deuxième temps, je veux lire ce fichier ligne par ligne et non charger tous les fichiers en mémoire
et en troisième fois je veux essayer de lire les nouvelles valeur si le fichier a recu de nouvelle données

j'ai recherché une solution avec l'utilisation pandas lire ce sujet :
https://stackoverflow.com/questions/...-huge-csv-file

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
import pandas as pd
chunksize = 10 ** 8
for chunk in pd.read_csv(filename, chunksize=chunksize):
    process(chunk)

mais je ne vois pas ensuite une fois sortie de la boucle comment récuperer les nouvelles du fichgiers qui ont été ajouté sans devoir reparcourir tous le fichier...

par avance merci pour votre aide

**wiztricks** · 29/06/2018, 13h14

Salut,

Envoyé par Hister

mais je ne vois pas ensuite une fois sortie de la boucle comment récuperer les nouvelles du fichgiers qui ont été ajouté sans devoir reparcourir tous le fichier...

Si les nouvelles données ne sont pas ajoutées "à la fin" du fichier existant, vous n'avez pas trop le choix. Sinon, çà se traite comme un fichier "log" et vous avez des exemples de code sur Internet (avec les mots clefs "python tail").

- W

**Hister** · 29/06/2018, 13h20

cela ne m'aide pas beaucoup...
mais j'ai trouvé ailleur merci quand meme

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import csv
import time
 
filename = "path/to/your/file.csv"
 
with open(filename, "rb") as f:  # on Python 3.x use: open(filename, "r", newline="")
    reader = csv.reader(f)  # create a CSV reader
    header = next(reader)  # grab the first line and keep it as a header reference
    print("CSV header: {}".format(header))
    for row in reader:  # iterate over the available rows
        print("Processing row: {}".format(row))  # process each row however you want
    # file exhausted, entering a 'waiting for new data' state where we manually read new lines
    while True:  # process ad infinitum...
        reader = csv.reader(f.readlines())  # create a CSV reader for the new lines
        for row in reader:  # iterate over the new rows, if any
            print("Processing new row: {}".format(row))  # process each row however you want
        time.sleep(10)  # wait 10 seconds before attempting again

Lire grand fichier csv ligne par ligne

Python

Vue hybride

Discussions similaires

Partager

Partager