Bonjour,
J'ai des fichiers CSV qui sont volumineux et qui par conséquent requièrent plusieurs secondes à être chargés. Je voudrais optimiser leur importation sous pandas. La solution classique est de spécifier leur type lors de l'importation:
Mon problème est que j'ai des valeurs manquantes qui sont indiquée par des "NAN" (donc des lettres entouré de guillemets). Si je tente de forcer le type de variable comme int ou float alors que la colonne contient ces "NAN", j'obtiens le message
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9 import pandas as pd dtypes = { 'Var1': object, 'Var2': np.int64, 'Var3': np.float64, 'Var4': np.float64, 'Var5': np.float64 } df = pd.read_csv('../Data/my_file.csv', dtype=dtypes)
Comment faire en sorte pour que les "NAN" soient interprétés comme des np.nan lors de l'importation et n'interfèrent pas avec ma définition des dtypes ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part TypeError: Cannot cast array data from dtype('O') to dtype('float64') according to the rule 'safe'
Merci !
Partager