Spark从零开始_学习笔记

首页免费课 Spark从零开始笔记

Spark从零开始

最热最新

gongwanyi 02:11

Spark Streaming:
是实时的数据流处理组件，类似Storm。
Spark Streaming提供了API来操作实时数据流数据
应用场景，企业中用来从Kafka来接收数据做实时统计

查看全部

0 采集收起来源：Spark生态介绍
2019-08-04
gongwanyi 01:49

Spark SQL:
是Spark处理结构化数据的库，就像Hive SQL、Mysql一样。
应用场景：企业中用来做报表统计

查看全部

0 采集收起来源：Spark生态介绍
2019-08-04
gongwanyi 01:33

Spark Core:
1、包含Spark的基本功能，包含任务调度，内存管理，容错机制等。
2、内部定义了RDDs（弹性分布式数据集）。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景，为其他组件提供底层的方服务。

查看全部

0 采集收起来源：Spark生态介绍
2019-08-04
gongwanyi 01:06

Spark组件

查看全部

0 采集收起来源：Spark生态介绍
2019-08-04
gongwanyi 00:48

Spark历史

查看全部

0 采集收起来源：Spark生态介绍
2019-08-04
gongwanyi 00:30

Spark历史
Mapreduce在迭代式计算和交互式上低效，引入了内存存储

查看全部

0 采集收起来源：Spark生态介绍
2019-08-04
gongwanyi 03:25

Spark课程大纲

查看全部

0 采集收起来源：Spark简介
2019-08-04
慕函数7292247

RDD不可改变的分布式数据集合对象
所有的计算都是RDD的生成，转换操作完成
一个RDD内部由许多partitions分片组成
分片是并行处理单元， spark底层会并行的，或者顺行的处理。

查看全部

0 采集收起来源：Rdds介绍
2019-07-22
qq_离家近_0

RDDs总共有两种操作：transformations、actions

查看全部

0 采集收起来源：Spark课程总结
2019-07-19
qq_离家近_0

RDDs特性
1、血统关系图
2、延迟计算：只有对RDDs开始进行action操作时，才会加载RDDs（对大数据处理十分有效）
3、RDDs.presist（），重复利用RDDs时。（什么作用？）

查看全部

0 采集收起来源：RDDS的特性
2019-07-18
qq_离家近_0

RDDs（弹性数据集）即是加载外部数据集（被解析文件）赋值的变量或者是用parallelize方法将一个集合赋值给的变量，RDDs创建后就不会改变了，且是分片后放在不同机器上，并行处理分片就能加快速度
val定义的RDDs不可修改
var定义的可以修改为同类型的值
变量需要定义
=>表示。。。

查看全部

0 采集收起来源：Rdds介绍
2019-07-18
lowenest 15:00

combineBykey一次没看懂，过会儿学完Scala 和函数式变成再过来学习一遍。。。。。

查看全部

0 采集收起来源：KeyValue对RDDs(二)
2019-07-15
lowenest 10:53

hello ！
Hello Spark
Hello World

after flatmap(line>> line.split(" " ))
hello
！
Hello
Spark
Hello
World

查看全部

0 采集收起来源：RDDs基本操作之Transformations（一）
2019-07-15
lowenest 10:47

flatMap 更细致元素，每一个全部

查看全部

0 采集收起来源：RDDs基本操作之Transformations（一）
2019-07-15
lowenest 12:42

spark 启动 master worker 、

查看全部

0 采集收起来源：开发第一个Spark程序
2019-07-15

首页上一页 9 10 11 12 13 14 15 下一页尾页

0/150

提交

取消

开始学习

课程须知: 1、简单Linux的操作

老师告诉你能学到什么？: 1、了解Spark到底是什么 2、了解Spark和Hadoop的区别 3、了解Spark的基础知识和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的开发和部署流程

微信扫码，参与3人拼团

热搜

最近搜索清空

Spark从零开始