我在集群模式下运行spark并通过JDBC从RDBMS读取数据。根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:partitionColumnlowerBoundupperBoundnumPartitions这些是可选参数。如果我不指定这些,会发生什么:只有1名工人读取整个数据?如果它仍然并行读取,它如何分区数据?
1 回答
largeQ
TA贡献2039条经验 获得超7个赞
如果没有指定{ partitionColumn
,lowerBound
,upperBound
,numPartitions
}或{ predicates
}星火将使用一个执行者,并创建一个非空分区。所有数据都将使用单个事务处理,并且读取既不会分发也不会并行化。
- 1 回答
- 0 关注
- 425 浏览
添加回答
举报
0/150
提交
取消