为了账号安全,请及时绑定邮箱和手机立即绑定

Pandas 按特定列分组

Pandas 按特定列分组

白衣染霜花 2021-12-08 16:14:27
描述您如何使用 Pandas groupby对某些列进行分组,而不对其他列进行分组?现在的进展table_D = pd.DataFrame({    'Geo_ID': [1, 1, 1, 1, 2, 3, 4, 4, 5],    'A_Code': [12, 12, 12, 65, 65, 65, 65, 98, 98],    'A_Cost': [2, 9, 1, 10, 6, 7, 7, 6, 2],}, columns=['Geo_ID', 'A_Code', 'A_Cost'])table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])table_D_dummies_grouped = table_D_dummies.groupby(by = ["Geo_ID"]).sum()问题如下所示,这正确地按 Geo_ID 汇总了成本。不幸的是,它也是由 A_Code 求和的。A_Code_12,A_Code_65和A_Code_98应结合分开。此外,在实际数据集中,A_Code 有 100 多个。数据表_D+--------+--------+--------+| Geo_ID | A_Code | A_Cost |+--------+--------+--------+|      1 |     12 |      2 ||      1 |     12 |      9 ||      1 |     12 |      1 ||      1 |     65 |     10 ||      2 |     65 |      6 ||      3 |     65 |      7 ||      4 |     65 |      7 ||      4 |     98 |      6 ||      5 |     98 |      2 |+--------+--------+--------+table_D_dummys+---+--------+--------+-----------+-----------+-----------+|   | Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |+---+--------+--------+-----------+-----------+-----------+| 0 |      1 |      2 |         1 |         0 |         0 || 1 |      1 |      9 |         1 |         0 |         0 || 2 |      1 |      1 |         1 |         0 |         0 || 3 |      1 |     10 |         0 |         1 |         0 || 4 |      2 |      6 |         0 |         1 |         0 || 5 |      3 |      7 |         0 |         1 |         0 || 6 |      4 |      7 |         0 |         1 |         0 || 7 |      4 |      6 |         0 |         0 |         1 || 8 |      5 |      2 |         0 |         0 |         1 |+---+--------+--------+-----------+-----------+-----------+
查看完整描述

1 回答

?
智慧大石

TA贡献1946条经验 获得超3个赞

您没有使用虚拟表,而是对原始数据框进行了分组:


table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])

table_D_dummies_grouped = table_D.groupby(by = ["Geo_ID"]).sum()

你想在table_D_dummies这里分组:


>>> table_D_dummies

   Geo_ID  A_Cost  A_Code_12  A_Code_65  A_Code_98

0       1       2          1          0          0

1       1       9          1          0          0

2       1       1          1          0          0

3       1      10          0          1          0

4       2       6          0          1          0

5       3       7          0          1          0

6       4       7          0          1          0

7       4       6          0          0          1

8       5       2          0          0          1

>>> table_D_dummies.groupby(by = ["Geo_ID"]).sum()

        A_Cost  A_Code_12  A_Code_65  A_Code_98

Geo_ID

1           22          3          1          0

2            6          0          1          0

3            7          0          1          0

4           13          0          1          1

5            2          0          0          1

如果您需要对每个 dummy 的成本求和,请将它们添加到分组列中:


>>> table_D_dummies.groupby(by = [

...     "Geo_ID",

...     *(c for c in table_D_dummies.columns if c.startswith('A_Code_'))

... ]).sum()

                                      A_Cost

Geo_ID A_Code_12 A_Code_65 A_Code_98

1      0         1         0              10

       1         0         0              12

2      0         1         0               6

3      0         1         0               7

4      0         0         1               6

                 1         0               7

5      0         0         1               2


查看完整回答
反对 回复 2021-12-08
  • 1 回答
  • 0 关注
  • 173 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信