-
累加:
val rdd=sc.parallelize(array(1,2,3,3))
rdd.collect()
rdd.reducr((x,y)=>x+y)随机取值
take(n) 返回RDD的n个元素(同时尝试访问最少的partitions)返回结果是无序的,测试使用。
top()排序:根据RDD中数据的比较器。
foreach()计算RDD中的每个元素,但不返回到本地。可以配合println()友好的打印出数据。
查看全部 -
MAP() Filter() Flatmap()压扁
rdd transformations(转换二)操作:集合运算
1.distinct :去除重复
2.subturast: rdd1.subtruast(rdd2),rdd1中有的,而rdd2中没有的
3.union。并集:rdd1.union(rdd2),取rdd1和rdd2中所有的数据
4.innter:交集:取rdd1与rdd2相同的部分5. subtract 包含 rdd1有rdd2的没有的部分
查看全部 -
有 idea 的安装地址 非常好!
查看全部 -
启动集群-提交作业
查看全部 -
启动集群
查看全部 -
Spark Streaming的应用场景
查看全部 -
Spark SQL的应用场景
查看全部 -
Spark Core的应用场景
查看全部 -
Spark Stream的应用场景
查看全部 -
开发第一个spark程序 中使用的命令查看全部
-
spark集群 启动时 的master 、worker 、提交的启动查看全部
-
CombineByKey函数的内部处理逻辑查看全部
-
CombineByKey 最常用的聚合函数查看全部
-
最常用的聚合函数,可以与返回的类型不一样查看全部
-
RDD的keyValue函数2查看全部
举报
0/150
提交
取消