为了账号安全,请及时绑定邮箱和手机立即绑定

如何理解spark中RDD和DataFrame的结构?

如何理解spark中RDD和DataFrame的结构?

慕标琳琳 2018-12-12 15:11:33
如何理解spark中RDD和DataFrame的结构
查看完整描述

1 回答

?
繁星淼淼

TA贡献1775条经验 获得超11个赞

RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。

RDD和DataFrame

RDD-DataFrame

上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解
Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark
SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。RDD是分布式的
Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效
率、减少数据读取以及执行计划的优化,比如filter下推、裁剪等。

查看完整回答
反对 回复 2019-01-11
  • 1 回答
  • 0 关注
  • 692 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信