为了账号安全,请及时绑定邮箱和手机立即绑定

删除PythonPandas中的所有重复行

删除PythonPandas中的所有重复行

收到一只叮咚 2019-07-03 16:21:44
删除PythonPandas中的所有重复行这个pandas drop_duplicates功能是伟大的“独特”的数据。但是,要传递的关键字参数之一是take_last=True或take_last=False,而我希望删除跨列子集重复的所有行。这个是可能的吗?    A   B   C0   foo 0   A1   foo 1   A2   foo 1   B3   bar 1   A例如,我希望删除列上匹配的行。A和C因此,这应该删除行0和1。
查看完整描述

3 回答

?
交互式爱情

TA贡献1712条经验 获得超3个赞

这对熊猫来说要容易得多滴式重复以及保持参数。

import pandas as pd
df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]})df.drop_duplicates(subset=['A', 'C'], keep=False)


查看完整回答
反对 回复 2019-07-03
?
Smart猫小萌

TA贡献1911条经验 获得超7个赞

只是想补充一下本的答案滴式重复:

keep{“第一”、“最后”、“假}”、默认“第一”

  • 第一:除去第一次出现的重复。

  • 最后一次:除最后一次事件外,删除重复项。

  • 假:删除所有副本。

如此设定keep对于假的,我们给你想要的答案。

如果删除重复行,则返回DataFrame(*args,*kwargs),可选地只考虑某些列

参数:子集:列标签或标签序列,可选只考虑某些列用于识别重复项,默认情况下使用所有列保持:{‘第一’,‘最后’,假},默认‘第一:删除重复除了第一次出现。最后一次:除最后一次事件外,删除重复项。假:删除所有副本。get_lastated inplace:boole,默认为false,无论是删除重复的还是返回副本cols:kwargs只包含子集的参数[取消推荐的]返回:depliced:dataFrame


查看完整回答
反对 回复 2019-07-03
?
慕勒3428872

TA贡献1848条经验 获得超6个赞

如果希望将结果存储在另一个数据集中:

df.drop_duplicates(keep=False)

df.drop_duplicates(keep=False, inplace=False)

如果需要更新相同的数据集:

df.drop_duplicates(keep=False, inplace=True)

以上示例将删除所有重复项并保留一个副本,类似于DISTINCT *在SQL中


查看完整回答
反对 回复 2019-07-03
  • 3 回答
  • 0 关注
  • 2715 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信