为了账号安全,请及时绑定邮箱和手机立即绑定

通过JDBC从RDBMS读取时分区为spark

通过JDBC从RDBMS读取时分区为spark

守着一只汪 2019-09-06 15:54:18
我在集群模式下运行spark并通过JDBC从RDBMS读取数据。根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:partitionColumnlowerBoundupperBoundnumPartitions这些是可选参数。如果我不指定这些,会发生什么:只有1名工人读取整个数据?如果它仍然并行读取,它如何分区数据?
查看完整描述

1 回答

?
largeQ

TA贡献2039条经验 获得超7个赞

如果没有指定{ partitionColumnlowerBoundupperBoundnumPartitions}或{ predicates}星火将使用一个执行者,并创建一个非空分区。所有数据都将使用单个事务处理,并且读取既不会分发也不会并行化。

查看完整回答
反对 回复 2019-09-06
  • 1 回答
  • 0 关注
  • 425 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信