[Python 3.X] DataFrame str.contains - Calcul scientifique Python

Bonjour,

1ers pas en python et je galère beaucoup...
J'ai exporte un File.csv avec près de 800k lignes et 70 colonnes
Voici mon programme:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import pandas as pd
import numpy as np
data = pd.read_csv("File.csv")
 
List1 = ['A', 'B', 'C', 'D', 'E']
data1 = data[(data['Column3 '].isin(List1))]
## Je garde toutes les lignes dont la Column3 est identique aux items de List1 (a savoir A, B...ou E) 
 
## Sur cette df data1, je veux ensuite appliquer un filtre pour supprimer toutes les lignes dont la ColumnV contiendrait
## le texte Impossible, Possible et/ou Hypothese
 
data2 = data1[~data1['ColumnV'].str.contains("Impossible")] 
data3 = data2[~data2['ColumnV'].str.contains( "Possible")]
data4 = data3[~data3['ColumnV'].str.contains( "Hypothese")]

Jusqu'ici tout va bien malgré la lourdeur du code...

Sachant que je veux supprimer énormément de lignes avec de nombreux mots non pertinents pour le problème, j'ai essayé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
List2=["Impossible", "Possible", "Hypothese"]
data2 = data1[~data1['ColumnV'].str.contains(List2)]

Message d'erreur...Comment pourrais-je condenser mon code avec tous les mots (Impossible, Possible...) qui ne me plaisent pas regrouper?

Merci de vos conseils

DataFrame str.contains

Calcul scientifique Python

Mode arborescent

Discussions similaires

Partager

Partager