Calcul du dataframe et datetime
Bonjour,
J'ai un fichier csv de données que j'ouvre parfaitement sous Python dans une dataframe. Ce fichier est horodaté avec mon format qui va bien. j'ai normalement une ligne par demi-heure.
Maintenant que j'ai ma df, je souhaiterais nettoyer le fichier qui porte plusieurs erreurs. Il peut y avoir des doublons de lignes, le fichier peut être inférieur ou supérieur à une année de données, ou il peut manquer une ou plusieurs lignes.
- Pour enlever les lignes qui sont en doublon, j'ai simplement utilisé
Code:
df.drop_duplicates()
et ça marche très bien
- En revanche pour les deux autres erreurs que je souhaiterais corriger, je sèche.
- Comment par exemple ajouter des lignes manquantes avec des NaN à un fichier qui s'arrête le 20/12/2020 12:00 alors qu'il devrait aller =jusqu'à 31/12/2020 23:30
- pour l'erreur lié à des lignes manquantes au sein du fichier, je pourrais détecter une différence d'une ligne n à n-1 et si elle est >0.02 (différence je crois entre deux demi-heures consécutives) alors c'est que j'ai un écart de plus d'une demi-heure d'une ligne à l'autre. Dans ce cas, il faudrait que je trouve un moyen de pouvoir combler ces lignes lignes manquantes avec les bonnes dates et heures en colonne 1 et des NaN dans le reste des variables.
;)
Merci pour votre aide.