-
Collect()遍历整个RDD 向drive program返回RDD的内容 需要单机内存能够容纳下(因为要拷贝给driver,一般测试使用),大数据的时候,使用saveAsTextFile() action保存文件中去。 raduce() 接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。可以实现RDD中元素的累加,计数,和其他类型的聚集操作。val sum=rdd.reduce((x,y)=>x+y)。 top()根据RDD中的数据的比较器 take(n) 返回RDD的n个元素(同时尝试访问最少的partitions)返回结果是无序的,一般测试使用。 foreach()计算RDD中的每个元素,但不返回到本地。可以配合println()友好的打印出数据。查看全部
-
Transformat类型函数查看全部
-
filter函数查看全部
-
map函数查看全部
-
spark-shell的使用查看全部
-
比 较查看全部
-
combineByKey()查看全部
-
spark运行程序查看全部
-
三种集群管理调度器 hadoop YARN (常用) Apache Mesos spark Cluster Managers查看全部
-
spark组件查看全部
-
spark特点 批处理=hadoop 迭代计算=其它?? 交互查询=Hive 流处理=storm查看全部
-
Spark组件查看全部
-
rdds查看全部
-
启动集群查看全部
-
项目版本查看全部
举报
0/150
提交
取消