为了账号安全,请及时绑定邮箱和手机立即绑定

Spark:扩展核心数量时的性能数量不一致

Spark:扩展核心数量时的性能数量不一致

猛跑小猪 2019-09-03 16:42:18
我正在使用排序基准测试对Spark进行简单的扩展测试 - 从1核,最多8核。我注意到8个核心比1核心慢。//run spark using 1 corespark-submit --master local[1] --class john.sort sort.jar data_800MB.txt data_800MB_output//run spark using 8 coresspark-submit --master local[8] --class john.sort sort.jar data_800MB.txt data_800MB_output  每种情况下的输入和输出目录都是HDFS。1核:80秒8个核心:160秒我希望8核性能有x倍的加速。
查看完整描述

2 回答

?
慕容森

TA贡献1853条经验 获得超18个赞

我想添加这些信息:由于Spark会尝试拆分文件,我们最终会遇到以下情况之一:要么Spark会启动多个线程来读取同一个文件,同时通过寻求I / O处罚跨输入文件,而不是线性读取。或者,Spark仍将大量读取文件,然后将其传播到同时工作中,并产生本地随机播放,这也会降低性能。再加上排序所需的shuffle,性能明显下降

查看完整回答
反对 回复 2019-09-03
  • 2 回答
  • 0 关注
  • 828 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信