panda set_value et boucle for

**ben124** · 30/05/2019, 21h50

Bonjour,

j'ai un dataframe df (créé avec la librairie panda) sur lequel mon identifiant de ligne id (qui n'est pas l'index) est dupliqué car une colonne ("ma_colonne") a des données sur plusieurs lignes pour un même identifiant.
Ce que je veux faire, c'est grouper les lignes de cette colonne en une seule. Ce que je fais avec:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

group_lines = df.groupby('id').apply(lambda x: ','.join(x['ma_colonne']))

Je cherche ensuite les données de cette objet dans mon df pour modifier celui-ci. Je le fais avec cette boucle:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
for row in df.itertuples():
              for i,v in group_lines.iteritems():
                  if row.id == i:
                          df.set_value(row.Index, 'ma_colonne', v)

Ca marche, mais 2 problèmes: C'est très très long dès que mon df a plus de 10 000 lignes (puisque boucle sur 2 objets j'imagine....). Et la fonction set_value() va être déprecié dans la prochaine mise à jour de panda: ils disent de remplacer celle-ci par df.at[].

Avez-vous une idée de comment améliorer cet algo?
Merci

bm · 31/05/2019, 17h47

c1 ma_colonne
1 a
1 b
1 c
2 d
3 d
4 e
4 f

Quel est le filtrage souhaité ?

**ben124** · 31/05/2019, 20h19

Bonjour

je veux obtenir:

1 a,b,c
1 a,b,c
1 a,b,c
2 d
3 d
4 e,f
4 e,f

**BufferBob** · 01/06/2019, 13h22

salut,

j'ai ça qui semble faire le job, sans grande conviction :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
>>> df = pd.DataFrame([[1, 'a'],[1, 'b'],[1, 'c'],[2, 'd'],[3, 'd'],[4, 'e'],[4, 'f']], columns=['c1', 'ma_colonne'])
>>> df['ma_colonne'] = df.apply(lambda x: df.groupby('c1').apply(lambda y: ','.join(y['ma_colonne']))[x[0]], axis=1)
>>> df
   c1 ma_colonne
0   1      a,b,c
1   1      a,b,c
2   1      a,b,c
3   2          d
4   3          d
5   4        e,f
6   4        e,f

ou plus court (à voir si c'est aussi correct et/ou efficace) : df['ma_colonne'] = [','.join(df[df['c1'] == i]['ma_colonne']) for i in df['c1']]

**ben124** · 01/06/2019, 14h17

ça marche merci beaucoup!

panda set_value et boucle for

Python

Discussions similaires

Partager

Partager