为了账号安全,请及时绑定邮箱和手机立即绑定

选择具有不明确值分配的数据框行

选择具有不明确值分配的数据框行

30秒到达战场 2022-06-07 18:58:11
我在识别模棱两可的变量匹配时遇到问题。我正在查看数据库,并希望找到标识符在整个观察期内发生变化的公司。我还有另一个永久标识符。如果表格如下所示:ID1  ID21111  11111  11111  11112  11112  11112  14444  24444  24444  2我想得到一个类似这样的简单输出:ID1   ID21111  11112  1提前谢谢了!
查看完整描述

2 回答

?
月关宝盒

TA贡献1772条经验 获得超5个赞

在:


df = pd.read_clipboard()


df = df.drop_duplicates()

df[df.duplicated(subset=['ID2'], keep=False)]

出去:


|   | ID1  | ID2 |

|---|------|-----|

| 0 | 1111 | 1   |

| 3 | 1112 | 1   |


查看完整回答
反对 回复 2022-06-07
?
慕标5832272

TA贡献1966条经验 获得超4个赞

您需要首先识别ID2具有超过 1 个 ID1(带有transform('nunique'))的 s,然后我们删除重复项。


df[df.groupby('ID2').ID1.transform('nunique').gt(1)].drop_duplicates()

#    ID1  ID2

#0  1111    1

#3  1112    1


查看完整回答
反对 回复 2022-06-07
  • 2 回答
  • 0 关注
  • 127 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信