为了账号安全,请及时绑定邮箱和手机立即绑定

使用Spark Java API进行数据集操作?

使用Spark Java API进行数据集操作?

守着星空守着你 2021-04-01 17:18:26
我是Spark Java API的新手。我有一个像这样的数据集:Ds1|  account|    Lib     |  amount1 |  amount2   |+---------+------------+----------+-------------| 222222  |            |          |            || 333333  |            |          |            || 888888  |            |          |            || 888888  | 我想获取此数据集:Ds2|  account|    Lib     |  amount1 |  amount2   |+---------+------------+----------+-------------| 222222  |            |          |            || 333333  |            |          |            || 888888  |            |          |            |有人可以用Spark Java API的简单表达式来指导我。提前致谢。
查看完整描述

2 回答

?
红颜莎娜

TA贡献1842条经验 获得超12个赞

请在ds1数据集的顶部使用dropduplicates方法


查看完整回答
反对 回复 2021-04-18
?
杨__羊羊

TA贡献1943条经验 获得超7个赞

数据集yourDS2 = yourDS1.dropDuplicates();

或者

数据集yourDS2 = yourDS1.dropDuplicates(“ account”);


查看完整回答
反对 回复 2021-04-18
  • 2 回答
  • 0 关注
  • 201 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信