如何将RDD拆分为两个或多个RDD?我正在寻找一种将RDD分割成两个或多个RDD的方法。我最近看到的是ScalaSPark:将集合拆分成几个RDD?仍然是一个单一的RDD。如果您熟悉SAS,如下所示:data work.split1, work.split2;
set work.preSplit;
if (condition1)
output work.split1
else if (condition2)
output work.split2
run;这就产生了两个不同的数据集。必须立即坚持才能得到我想要的结果.。
3 回答
函数式编程
TA贡献1807条经验 获得超9个赞
Partitioner
RangePartitioner
.
val filtered = partitioned.mapPartitions { iter => { new Iterator[Int](){ override def hasNext: Boolean = { if(rangeOfPartitionsToKeep.contains(TaskContext.get().partitionId)) { false } else { iter.hasNext } } override def next():Int = iter.next() }
- 3 回答
- 0 关注
- 1129 浏览
添加回答
举报
0/150
提交
取消