-
注意:版本匹配很重要,因为随着版本更新迭代,新版本很可能删除旧的API,不支持对应版本的Java或者Scala
查看全部 -
rdds的特性课程小结
rdds的血统关系图
延迟计算
rdd.persist()
查看全部 -
rdds的特性
rdd.persist()可以传入一个级别,表示是否存在内存中或硬盘上,以及是否执行序列化操作等,级别不同,对应占用空间和cpu消耗情况是不一样的。
查看全部 -
rdds的特性
rdd.persist()可以传入一个级别,表示是否存在内存中或硬盘上,以及是否执行序列化操作等,级别不同,对应占用空间和cpu消耗情况是不一样的。
查看全部 -
rdds的特性
rdd.persist():
默认每次在rdds上面进行action操作时,spark都重新计算rdds
如果想重复利用一个rdd,可以使用rdd.persist()
unpersist()方法从缓存中移除;
例子--persist()
查看全部 -
rdds的特性
延迟计算:
spark对rdds的计算是,他们第一次使用action操作的时候;
这种方式在处理大数据的时候特别有用,可以减少数据的传输;
spark内部记录metadata 表名tranformations操作已经被响应了;
加载数据也是延迟计算,数据只有在必要的时候,才会被加载进去。
查看全部 -
rdds的特性
rdds的血统关系图:
spark维护着rdds之间的依赖关系和创建关系,叫做 血统关系图
spark使用血统关系图来计算每个rdd的需求和恢复丢失的数据。
查看全部 -
foreach():
计算rdd中的每个元素,但不返回到本地。
可以配合println()友好的打印出数据。
查看全部 -
top():
排序(根据rdd中数据的比较器),也可以设置为自定义的比较器。
查看全部 -
take(n):
返回rdd的n个元素(同时尝试访问最少的partitions)。
返回结果是无序的,测试使用。
查看全部 -
collect()操作,
遍历整个rdd,向driver program返回rdd的内容;
需要单机内存能够容纳下(因为数据要拷贝给driver,测试使用)
大数据的时候,使用saveastextfile() action等。
查看全部 -
reduce例子,可以做其它类型的聚集操作,
val sum = rdd.reduce((x,y)=>x+y)
查看全部 -
reduce的累加操作,
定义rdd
调用collec()
累加计算
查看全部 -
action =》reduce()
接收一个函数,作用在rdd两个类型相同的元素上,返回新元素。可以实现,rdd中元素的累加,计数,和其他类型的聚焦操作。
查看全部 -
rdd常用的action汇总,
collect()、count()、countbyvalue()、take(num)、top(num)、takeordered(num)(ordering)
查看全部
举报