-
查看全部
-
CombineByKey 最常用的聚合函数
查看全部 -
KeyValue对RDDs常见操作2
查看全部 -
KeyValue对RDDs常见操作1
查看全部 -
Sprark组件
查看全部 -
Spark体系图
查看全部 -
Spark是Scala写的。在Java环境下运行
查看全部 -
Spark Streaming数据流处理组件,类似storm,提供了API来操作实时流数据
用来从Kafka接收数据做统计
查看全部 -
spark sql处理结构化数据的库
查看全部 -
spark的特点:通用性
查看全部 -
spark是快速且通用的计算平台
特点:
spark是快速的:
1 扩充了hadoop的MAPREDUCE计算模型
2 spark基于内存计算
3 spark是通用的,容纳了卡分布式系统的功能
a 批处理
hadoop
b 迭代式计算
c 流处理
d 交互查询
hive
降低了维护成本
4 spark 高度开放提供了java,python,R,scala,SQL的API和丰富的内存库
查看全部 -
查看全部
-
查看全部
-
查看全部
-
RDDS的特性
RDDS的血统关系图,Spark维护着RDDS之间的依赖关系以及创建关系,叫做血统关系图,Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。
延迟计算,没有action,转换操作没有意义。
持久化:如果想重复利用一个RDD,可以使用RDD.persist()来持久化到缓存中,因为默认每次在RDDS上action操作时,Spark都要重新计算RDDS00:41
查看全部
举报