DataFrame/DataSet组的行为/优化假设我们有DataFramedf由下列栏组成:姓名,姓氏,大小,宽度,长度,体重现在我们想要执行几个操作,例如,我们希望创建包含大小和宽度数据的几个DataFrame。val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )您可以注意到,其他列,如Length,在任何地方都不使用。斯派克是否足够聪明,在洗牌阶段之前丢弃多余的列,还是它们被随身携带?Wil Run:val dfBasic = df.select("surname", "size", "width")在分组之前对性能有什么影响?
2 回答
慕神8447489
TA贡献1780条经验 获得超1个赞
我试图搜索和读取任何解释跨节点混合操作的源,这些操作的性能和分布是DataFrame(特别是)和RDD在节点上的操作,但是可以找到,给出的只是示例和输出。你能指导教授这样的概念的课程吗(比如RDD中的groupbyKey是昂贵的,而df中的groupby不是)
添加回答
举报
0/150
提交
取消