Spark从零开始_学习笔记

首页免费课 Spark从零开始笔记

Spark从零开始

最热最新

维维要加油 05:18

Spark目录：
bin包含用来和spark交互的可执行文件，如spark shell
core, streaming ,python,包含主要组件的源代码
examples包含一些单机Spark job，可以研究和运行这些例子
Spark的shell：
Spark的shell使得能够处理分布在集群上的数据
Spark把数据加载到节点的内存中，因此，分布式处理可以在秒级完成。
快速式迭代式计算，实时查询、分析一般能够在shell中完成
spark提供了python shells和Scala shells
python shells位于bin/pyspark
scala shell位于 bin/spark-shell

查看全部

1 采集收起来源：spark安装
2018-07-13
李慕青_ 08:44

WordCount程序

查看全部

0 采集收起来源：开发第一个Spark程序
2018-07-12
李慕青_ 03:50

Scala项目。。

查看全部

0 采集收起来源：开发第一个Spark程序
2018-07-12
李慕青_ 07:24

版本版本版本

查看全部

0 采集收起来源：Spark开发环境搭建
2018-07-12
李慕青_ 06:43

版本不一样，安装报错，标记下。

查看全部

0 采集收起来源：Spark开发环境搭建
2018-07-12
维维要加油

Spark安装
Spark运行环境：
Spark是用Scala写的，运行在JVM上，所以运行环境Java7+
如果是用Python API，需要安装Python 2.6+ 或者Python3.4+

查看全部

0 采集收起来源：spark安装
2018-07-12
李慕青_ 05:24

版本设置标记。

查看全部

0 采集收起来源：Spark开发环境搭建
2018-07-12
维维要加油

Spark和Hadoop的比较
Hadoop应用场景：离线处理、对时效性要求不高，因为hadoop的中间数据在硬盘上
Spark应用场景：时效性要求高的场景&机器学习
两者都是拥有完整的生态系统，每个组件都有其作用，各善其职；
Spark不具有HDFS的存储能力，要借助HDFS等持久化数据

查看全部

0 采集收起来源：Spark与Hadoop的比较
2018-07-12
维维要加油

Graphx：是处理图的库（例如，社交网络图），并进行图的并行计算。
像，spark streaming,Spark SQL一样，他也继承了RDD API
他提供了各种图的操作，和常用的图算法
Cluster Managers：集群管理，Spark自带一个集群管理是一个单独调度器。
常见集群管理包括Hadoop YARN,apache Mesos

查看全部

0 采集收起来源：Spark生态介绍
2018-07-12
维维要加油

Spark SQL：
是Spark处理结构化数据的库，就像Hive SQL，Mysql一样。
应用场景，企业中用来做报表统计
Spark Streaming:
是实时数据流处理的组件，类似Storm
Spark Streaming 提供了API来操作实时流数据
应用场景，企业中用来从Kafka接收数据做实时统计
MLlib：
一个包含通用机器学习功能的包，Machine Learning lib。
包含分类、聚类、回归等，还包括模型评估和导入。
MLlib提供的上面这些方法，都支持集群上的扩展
应用场景：机器学习

查看全部

0 采集收起来源：Spark生态介绍
2018-07-12
维维要加油 01:51
Spark Core:
1. 包含了spark的基本功能，包含任务调度、内存管理、容错机制等；
2. 内部定义了RDDs（弹性分布式数据集）
3. 提供了很多APIs来创建和操作这些RDDs
4. 应用场景是为其他组件提供底层服务
查看全部

0 采集收起来源：Spark生态介绍
2018-07-12
维维要加油 03:29
Spark的特点：
1. 快速，扩充了流行的Mapreduce计算模型，比Hadoop快，基于内存计算，读取速度快；
2. 通用，容纳了其他分布式系统拥有的功能：批处理、迭代式计算、交互查询和流处理，方便维护；
3. 高度开放，提供了python、java、scala、SQL的API和丰富的内置库（Scala是spark的原生语言）；和其他的大数据工具整合的很好，包括hadoop、kafka等
查看全部

0 采集收起来源：Spark简介
2018-07-12
246ba 06:43

scala项目初始化结构

查看全部

0 采集收起来源：Spark开发环境搭建
2018-06-24
246ba

hadoop 离线处理实时性要求不高的场景，中间计算数据存储在磁盘，处理时间分钟-小时
spark 即时处理实时性要求高的场景，中间计算数据存储在内存，处理时间秒-分钟

查看全部

2 采集收起来源：Spark与Hadoop的比较
2018-06-24
慕勒6198700

11

查看全部

0 采集收起来源：Spark简介
2018-06-13

首页上一页 23 24 25 26 27 28 29 下一页尾页

0/150

提交

取消

开始学习

课程须知: 1、简单Linux的操作

老师告诉你能学到什么？: 1、了解Spark到底是什么 2、了解Spark和Hadoop的区别 3、了解Spark的基础知识和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的开发和部署流程

微信扫码，参与3人拼团

热搜

最近搜索清空

Spark从零开始