我正在尝试了解 spark 中的 coalesce 方法。我有一个JavaRDD<String>(由 16310 个字符串组成),我想将它保存在 233 个文件中。(一个文件有 70 个字符串)首先,我尝试了trainDataFeatures.repartition(233).saveAsTextFile(outputPathTrainFeatures);这很好用,但我不想洗牌我的数据。所以我尝试了:trainDataFeatures.coalesce(233, false).saveAsTextFile(outputPathTrainFeatures);在这里我只有 4 个输出文件。没有洗牌,但只有 4 个!!!这真的很烦人。也许有人可以帮我解决这个问题。
添加回答
举报
0/150
提交
取消