Bonjour,

J'ai des fichiers CSV qui sont volumineux et qui par conséquent requièrent plusieurs secondes à être chargés. Je voudrais optimiser leur importation sous pandas. La solution classique est de spécifier leur type lors de l'importation:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
import pandas as pd
dtypes = {
'Var1': object,
'Var2': np.int64,
'Var3': np.float64,
'Var4': np.float64,
'Var5': np.float64
}
df = pd.read_csv('../Data/my_file.csv', dtype=dtypes)
Mon problème est que j'ai des valeurs manquantes qui sont indiquée par des "NAN" (donc des lettres entouré de guillemets). Si je tente de forcer le type de variable comme int ou float alors que la colonne contient ces "NAN", j'obtiens le message
Code : Sélectionner tout - Visualiser dans une fenêtre à part
TypeError: Cannot cast array data from dtype('O') to dtype('float64') according to the rule 'safe'
Comment faire en sorte pour que les "NAN" soient interprétés comme des np.nan lors de l'importation et n'interfèrent pas avec ma définition des dtypes ?

Merci !