Bonjour,
J'ai un fichier csv de données que j'ouvre parfaitement sous Python dans une dataframe. Ce fichier est horodaté avec mon format qui va bien. j'ai normalement une ligne par demi-heure.
Maintenant que j'ai ma df, je souhaiterais nettoyer le fichier qui porte plusieurs erreurs. Il peut y avoir des doublons de lignes, le fichier peut être inférieur ou supérieur à une année de données, ou il peut manquer une ou plusieurs lignes.
- Pour enlever les lignes qui sont en doublon, j'ai simplement utilisé
et ça marche très bien
Code : Sélectionner tout - Visualiser dans une fenêtre à part df.drop_duplicates()
- En revanche pour les deux autres erreurs que je souhaiterais corriger, je sèche.
- Comment par exemple ajouter des lignes manquantes avec des NaN à un fichier qui s'arrête le 20/12/2020 12:00 alors qu'il devrait aller =jusqu'à 31/12/2020 23:30
- pour l'erreur lié à des lignes manquantes au sein du fichier, je pourrais détecter une différence d'une ligne n à n-1 et si elle est >0.02 (différence je crois entre deux demi-heures consécutives) alors c'est que j'ai un écart de plus d'une demi-heure d'une ligne à l'autre. Dans ce cas, il faudrait que je trouve un moyen de pouvoir combler ces lignes lignes manquantes avec les bonnes dates et heures en colonne 1 et des NaN dans le reste des variables.
Merci pour votre aide.
Partager