为了账号安全,请及时绑定邮箱和手机立即绑定

删除两个重复的行

删除两个重复的行

守候你守候我 2021-04-28 21:18:38
各位同事,大家好。我有一个大数据集(约2.370亿行)。有很多列。例如,我需要删除列名所有重复userId,VTS。userId Vts moreColumn1 moreColumn210     150     2           3              -delete11     160     1           610     150     0           1              -delete我对SQL不好。尝试了与Internet不同的变体,但不起作用。更新:输入答案!我忘了说我使用Java。有我针对Java的优化代码:viewingDataset.groupBy("userId", "VTS")                .count()                .where("count = 1")                .drop("count")                .join(viewingDataset, JavaConversions.asScalaBuffer(asList("userId", "VTS")))
查看完整描述

2 回答

  • 2 回答
  • 0 关注
  • 105 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信