删除相对于某些行重复的所有行

我已经看到了几个类似的问题，但对我的情况却不是令人满意的答案。这是一个示例DataFrame：+------+-----+----+| id|value|type|+------+-----+----+|283924| 1.5| 0||283924| 1.5| 1||982384| 3.0| 0||982384| 3.0| 1||892383| 2.0| 0||892383| 2.5| 1|+------+-----+----+我只想通过"id"和"value"列来识别重复项，然后删除所有实例。在这种情况下：第1行和第2行是重复的（同样，我们忽略了“类型”列）第3行和第4行是重复的，因此仅应保留第5行和第6行：输出为：+------+-----+----+| id|value|type|+------+-----+----+|892383| 2.5| 1||892383| 2.0| 0|+------+-----+----+我试过了df.dropDuplicates(subset = ['id', 'value'], keep = False)但是“保持”功能不在PySpark中（因为它在中）pandas.DataFrame.drop_duplicates。我还能怎么做？

查看完整描述

删除相对于某些行重复的所有行

删除相对于某些行重复的所有行

2 回答

添加回答

热搜

最近搜索清空

删除相对于某些行重复的所有行

删除相对于某些行重复的所有行

2 回答

添加回答