各位同事,大家好。我有一个大数据集(约2.370亿行)。有很多列。例如,我需要删除列名所有重复userId,VTS。userId Vts moreColumn1 moreColumn210 150 2 3 -delete11 160 1 610 150 0 1 -delete我对SQL不好。尝试了与Internet不同的变体,但不起作用。更新:输入答案!我忘了说我使用Java。有我针对Java的优化代码:viewingDataset.groupBy("userId", "VTS") .count() .where("count = 1") .drop("count") .join(viewingDataset, JavaConversions.asScalaBuffer(asList("userId", "VTS")))
添加回答
举报
0/150
提交
取消