panda set_value et boucle for

Version imprimable

30/05/2019, 21h50
ben124

panda set_value et boucle for
Bonjour,

j'ai un dataframe df (créé avec la librairie panda) sur lequel mon identifiant de ligne id (qui n'est pas l'index) est dupliqué car une colonne ("ma_colonne") a des données sur plusieurs lignes pour un même identifiant.
Ce que je veux faire, c'est grouper les lignes de cette colonne en une seule. Ce que je fais avec:

Code:

group_lines = df.groupby('id').apply(lambda x: ','.join(x['ma_colonne']))

Je cherche ensuite les données de cette objet dans mon df pour modifier celui-ci. Je le fais avec cette boucle:
Code:

1 2 3 4 for row in df.itertuples(): for i,v in group_lines.iteritems(): if row.id == i: df.set_value(row.Index, 'ma_colonne', v)
Ca marche, mais 2 problèmes: C'est très très long dès que mon df a plus de 10 000 lignes (puisque boucle sur 2 objets j'imagine....). Et la fonction set_value() va être déprecié dans la prochaine mise à jour de panda: ils disent de remplacer celle-ci par df.at[].

Avez-vous une idée de comment améliorer cet algo?
Merci :)
31/05/2019, 17h47
bm

c1 ma_colonne
1 a
1 b
1 c
2 d
3 d
4 e
4 f

Quel est le filtrage souhaité ?
31/05/2019, 20h19
ben124

Bonjour

je veux obtenir:

1 a,b,c
1 a,b,c
1 a,b,c
2 d
3 d
4 e,f
4 e,f

salut,

j'ai ça qui semble faire le job, sans grande conviction :

Code:

1
2
3
4
5
6
7
8
9
10
11
>>> df = pd.DataFrame([[1, 'a'],[1, 'b'],[1, 'c'],[2, 'd'],[3, 'd'],[4, 'e'],[4, 'f']], columns=['c1', 'ma_colonne'])
>>> df['ma_colonne'] = df.apply(lambda x: df.groupby('c1').apply(lambda y: ','.join(y['ma_colonne']))[x[0]], axis=1)
>>> df
   c1 ma_colonne
0   1      a,b,c
1   1      a,b,c
2   1      a,b,c
3   2          d
4   3          d
5   4        e,f
6   4        e,f

ou plus court (à voir si c'est aussi correct et/ou efficace) : df['ma_colonne'] = [','.join(df[df['c1'] == i]['ma_colonne']) for i in df['c1']]

01/06/2019, 14h17
ben124

ça marche merci beaucoup!