Spark从零开始_学习笔记

首页免费课 Spark从零开始笔记

Spark从零开始

最热最新

慕UI6410761 17:22

RDDs combineByKey()

查看全部

0 采集收起来源：KeyValue对RDDs(二)
2019-07-06
慕UI6410761 11:23

keyvalue RDDs

查看全部

0 采集收起来源：KeyValue对RDDs(一)
2019-07-06
慕UI6410761 09:12

keyvalue RDDs

查看全部

0 采集收起来源：KeyValue对RDDs(一)
2019-07-06
慕UI6410761 06:15

RDD持久化

查看全部

0 采集收起来源：RDDS的特性
2019-07-06
慕UI6410761 03:18

Rdds的延迟计算

查看全部

0 采集收起来源：RDDS的特性
2019-07-06
慕UI6410761 00:44

RDDs的特性

查看全部

0 采集收起来源：RDDS的特性
2019-07-06
慕婉清1371058 00:49

driver

查看全部

0 采集收起来源：Rdds介绍
2019-06-06
慕运维1329415 00:27

spark

查看全部

0 采集收起来源：Spark简介
2019-05-21
一只藏獒

Scala安装
    默认安装选项会自动配置环境变量
    spark 1.6.2 -Scala 2.10
    spark 2.0.0 -Scala 2.11
在Intellij 上安装插件
    在Plugins，搜索Scala 直接安装，插件中有Scala和sbt
新建项目
    file->new->project->scala->sbt
    sbt version 0.13.8 ---- scala version 2.10.5
搭建开发环境经常遇到的问题
    网络问题；
    版本匹配问题（Scala2.10.5，jdk1.8,spark1.6.2,sbt0.113.8）

查看全部

0 采集收起来源：Spark开发环境搭建
2019-04-23
一只藏獒

spark的运行环境：
    基于Scala ,运行在JVM，运行环境Java7+
spark下载：
    搭建spark不需要Hadoop，下载后解压
    虚拟机（Linux）联网状态下，通过 wget+下载链接
    Linux解压命令 tar -zxvf spark.....
spark目录
    bin目录-可执行文件
    core，streaming主要包含组件源代码
    examples 包含单机例子
spark的shell:
    梳理分布在集群上的数据
    可以将数据加载到节点的内存中，因此分布式处理可在秒级完成。
    快速迭代计算，实时查询、分析
    spark提供了Python shell和Scala shell
Scala shell
    /bin/spark-shell

查看全部

1 采集收起来源：spark安装
2019-04-23
一只藏獒

spark与Hadoop的比较
Hadoop的应用场景：离线处理，对时效性要求不高
spark的应用场景：对时效性要求高，机器学习领域

查看全部

0 采集收起来源：Spark与Hadoop的比较
2019-04-23
一只藏獒
spark core:
    包含spark的基本功能，任务调度，内存管理，容错机制
    内部定义了RDDs，弹性分布式数据集
spark sql:
    是spark处理结构化数据的库
spark streaming：
    实时数据流处理组件
milb:
    包含通用机器学习功能的包，分类，聚类，回归
    支持起群上的横向扩展
graphx:
    处理图的库，并进行图的并行计算
cluster managers：
    集群管理

紧密集成的优点
1. spark底层优化了，基于spark的底层组件也会得到相应的优化。
2. 紧密继承节省了各个组价组合使用时的部署，测试等时间
3. 向spark增加新的组件时，其他组件，可立刻享用新组建的功能。
查看全部

2 采集收起来源：Spark生态介绍
2019-04-23
一只藏獒
1. spark 是一个快速且通用的集群计算平台
2. 基于内存的运算
3. 通用性；降低维护成本
4. spark是高度开放的；Python Java scala haddoop
查看全部

0 采集收起来源：Spark简介
2019-04-23

weixin_慕的地6245420

Hadoop适合处理离线的静态的大数据
Spark适合处理离线的流式的大数据
Storm适合处理在线的实时的大数据

查看全部

0 采集收起来源：Spark与Hadoop的比较

2019-04-07

weixin_慕的地6245420

通用性 - Spark提供大量的库，包括Spark Core、Spark SQL、 Spark Streaming、MLlib、Graphx.开发者可以在同一个应用程序中无缝组合使用这些库。

支持多种资源管理器 - Spark支持Hadoop YARN, Apache Mesos, 及其自带的独立集群管理器。

查看全部

0 采集收起来源：Spark生态介绍

2019-04-07

首页上一页 10 11 12 13 14 15 16 下一页尾页

0/150

提交

取消

开始学习

课程须知: 1、简单Linux的操作

老师告诉你能学到什么？: 1、了解Spark到底是什么 2、了解Spark和Hadoop的区别 3、了解Spark的基础知识和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的开发和部署流程

微信扫码，参与3人拼团

热搜

最近搜索清空

Spark从零开始