我已经看到了几个类似的问题,但对我的情况却不是令人满意的答案。这是一个示例DataFrame:+------+-----+----+| id|value|type|+------+-----+----+|283924| 1.5| 0||283924| 1.5| 1||982384| 3.0| 0||982384| 3.0| 1||892383| 2.0| 0||892383| 2.5| 1|+------+-----+----+我只想通过"id"和"value"列来识别重复项,然后删除所有实例。在这种情况下:第1行和第2行是重复的(同样,我们忽略了“类型”列)第3行和第4行是重复的,因此仅应保留第5行和第6行:输出为:+------+-----+----+| id|value|type|+------+-----+----+|892383| 2.5| 1||892383| 2.0| 0|+------+-----+----+我试过了df.dropDuplicates(subset = ['id', 'value'], keep = False)但是“保持”功能不在PySpark中(因为它在中)pandas.DataFrame.drop_duplicates。我还能怎么做?
添加回答
举报
0/150
提交
取消