Spark RDD到底是个什么东西
2 回答
慕容森
TA贡献1853条经验 获得超18个赞
为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了RDDs的概念。当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是RDDs的提出的动机。如果能将数据保存在内存中,将会使的上面两种场景的性能提高一个数量级。为了能达到高效的容错,RDDs提供了一种受限制的共享内存的方式,这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状态。然而,我们分析表明RDDs可以表达出很多种类的计算,包括目前专门从事迭代任务的编程计算模型,比如Pregel,当然也可以表达出目前模型表达不出的计算
- 2 回答
- 0 关注
- 1058 浏览
添加回答
举报
0/150
提交
取消