我在识别模棱两可的变量匹配时遇到问题。我正在查看数据库,并希望找到标识符在整个观察期内发生变化的公司。我还有另一个永久标识符。如果表格如下所示:ID1 ID21111 11111 11111 11112 11112 11112 14444 24444 24444 2我想得到一个类似这样的简单输出:ID1 ID21111 11112 1提前谢谢了!
2 回答
月关宝盒
TA贡献1772条经验 获得超5个赞
在:
df = pd.read_clipboard()
df = df.drop_duplicates()
df[df.duplicated(subset=['ID2'], keep=False)]
出去:
| | ID1 | ID2 |
|---|------|-----|
| 0 | 1111 | 1 |
| 3 | 1112 | 1 |
慕标5832272
TA贡献1966条经验 获得超4个赞
您需要首先识别ID2具有超过 1 个 ID1(带有transform('nunique'))的 s,然后我们删除重复项。
df[df.groupby('ID2').ID1.transform('nunique').gt(1)].drop_duplicates()
# ID1 ID2
#0 1111 1
#3 1112 1
添加回答
举报
0/150
提交
取消