为了账号安全,请及时绑定邮箱和手机立即绑定

Pandas 按多个条件删除重复行

Pandas 按多个条件删除重复行

白板的微信 2023-08-08 18:00:42
从我的 df 开始,我想按如下方式删除行:每次ID检查是否至少一次COD1=COD2且 ifGRADE包含字符串'A'or 'C'。如果满足这两个条件,则删除行。我的想法是这样提出我的条件:indexNames = df[ (df[df.COD1 == df.COD2]) & (df[df['Grade'].isin(['A','C'])]) ].index然后用df.drop(indexNames , inplace=True)然而对于第一行我得到了TypeError: unsupported operand type(s) for &: 'int' and 'float'。我真的很感激任何关于如何实现我的目标的想法。我的 DF:# -- create a dataframe list_columns = ['ID', 'COD1', 'COD2','Grade','Data']list_data = [    [3215575, 'A21', 'A21','A','2020-09-16 13:25:00'],    [3215575, 'A11', 'A21','D','2020-09-16 13:55:00'],    [3215575, 'A21', 'A21','E','2020-09-16 13:12:00'],    [4058770, 'D10', '213','E','2020-09-16 12:25:00'],    [4058770, '313', '313','E','2020-09-16 10:25:00'],    [4058770, '313', '125','B','2020-09-16 13:19:00'],    [4058771, 'C55', 'C55','C','2020-09-16 14:25:00'],    [3215577, 'A21', 'A21','B','2020-09-16 13:25:00'],    [3215577, 'A01', 'A21','D','2020-09-16 13:55:00']    ]df = pd.DataFrame(columns=list_columns, data=list_data)预期输出:    list_columns = ['ID', 'COD1', 'COD2','Grade','Data']    list_data = [        [4058770, 'D10', '213','E','2020-09-16 12:25:00'],        [4058770, '313', '313','E','2020-09-16 10:25:00'],        [3215577, 'A21', 'A21','B','2020-09-16 13:25:00'],        [3215577, 'A01', 'A21','D','2020-09-16 13:55:00']        ]df2 = pd.DataFrame(columns=list_columns, data=list_data)
查看完整描述

1 回答

?
慕桂英4014372

TA贡献1871条经验 获得超13个赞

IIUC,,你需要一个条件,用 groupby 并用 any 进行变换,然后反转:


cond = (df.COD1 == df.COD2) & df['Grade'].isin(['A','C'])

df2 = df[~cond.groupby(df['ID']).transform('any')].reset_index(drop=True)

        ID COD1 COD2 Grade                 Data

0  4058770  D10  213     E  2020-09-16 12:25:00

1  4058770  313  313     E  2020-09-16 10:25:00

2  4058770  313  125     B  2020-09-16 13:19:00

3  3215577  A21  A21     B  2020-09-16 13:25:00

4  3215577  A01  A21     D  2020-09-16 13:55:00


查看完整回答
反对 回复 2023-08-08
  • 1 回答
  • 0 关注
  • 136 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信