-
Spark Streaming:
是实时的数据流处理组件,类似Storm。
Spark Streaming提供了API来操作实时数据流数据
应用场景,企业中用来从Kafka来接收数据做实时统计
查看全部 -
Spark SQL:
是Spark处理结构化数据的库,就像Hive SQL、Mysql一样。
应用场景:企业中用来做报表统计
查看全部 -
Spark Core:
1、包含Spark的基本功能,包含任务调度,内存管理,容错机制等。
2、内部定义了RDDs(弹性分布式数据集)。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景,为其他组件提供底层的方服务。
查看全部 -
Spark组件
查看全部 -
Spark历史
查看全部 -
Spark历史
Mapreduce在迭代式计算和交互式上低效,引入了内存存储
查看全部 -
Spark课程大纲
查看全部 -
RDD不可改变的分布式数据集合对象
所有的计算都是RDD的生成,转换操作完成
一个RDD内部由许多partitions分片组成
分片是并行处理单元, spark底层会并行的,或者顺行的处理。
查看全部 -
RDDs总共有两种操作:transformations、actions
查看全部 -
RDDs特性
1、血统关系图
2、延迟计算:只有对RDDs开始进行action操作时,才会加载RDDs(对大数据处理十分有效)
3、RDDs.presist(),重复利用RDDs时。(什么作用?)
查看全部 -
RDDs(弹性数据集)即是加载外部数据集(被解析文件)赋值的变量或者是用parallelize方法将一个集合赋值给的变量,RDDs创建后就不会改变了,且是分片后放在不同机器上,并行处理分片就能加快速度
val定义的RDDs不可修改
var定义的可以修改为同类型的值
变量需要定义
=>表示。。。
查看全部 -
combineBykey一次没看懂,过会儿学完Scala 和 函数式变成再过来学习一遍。。。。。
查看全部 -
hello !
Hello Spark
Hello World
after flatmap(line>> line.split(" " ))
hello
!
Hello
Spark
Hello
World
查看全部 -
flatMap 更细致元素,每一个全部
查看全部 -
spark 启动 master worker 、
查看全部
举报