为了账号安全,请及时绑定邮箱和手机立即绑定

Spark从零开始

Terby JAVA开发工程师
难度初级
时长 2小时18分
学习人数
综合评分9.80
56人评价 查看评价
9.8 内容实用
9.7 简洁易懂
9.9 逻辑清晰
  • Spark目录:

    bin包含用来和spark交互的可执行文件,如spark shell

    core, streaming ,python,包含主要组件的源代码

    examples包含一些单机Spark job,可以研究和运行这些例子

    Spark的shell:

    Spark的shell使得能够处理分布在集群上的数据

    Spark把数据加载到节点的内存中,因此,分布式处理可以在秒级完成。

    快速式迭代式计算,实时查询、分析一般能够在shell中完成

    spark提供了python shells和Scala shells

    python shells位于bin/pyspark

    scala shell位于 bin/spark-shell

    查看全部
    1 采集 收起 来源:spark安装

    2018-07-13

  • WordCount程序

    查看全部
  • Scala项目。。

    查看全部
  • 版本版本版本

    查看全部
  • 版本不一样,安装报错,标记下。

    查看全部
  • Spark安装

    Spark运行环境:

    Spark是用Scala写的,运行在JVM上,所以运行环境Java7+

    如果是用Python API,需要安装Python 2.6+ 或者Python3.4+


    查看全部
    0 采集 收起 来源:spark安装

    2018-07-12

  • 版本设置标记。

    查看全部
  • Spark和Hadoop的比较

    Hadoop应用场景:离线处理、对时效性要求不高,因为hadoop的中间数据在硬盘上

    Spark应用场景:时效性要求高的场景&机器学习

    两者都是拥有完整的生态系统,每个组件都有其作用,各善其职;

    Spark不具有HDFS的存储能力,要借助HDFS等持久化数据

    查看全部
  • Graphx:是处理图的库(例如,社交网络图),并进行图的并行计算。

    像,spark streaming,Spark SQL一样,他也继承了RDD API

    他提供了各种图的操作,和常用的图算法

    Cluster Managers:集群管理,Spark自带一个集群管理是一个单独调度器。

    常见集群管理包括Hadoop YARN,apache Mesos

    查看全部
    0 采集 收起 来源:Spark生态介绍

    2018-07-12

  • Spark  SQL:

    是Spark处理结构化数据的库,就像Hive SQL,Mysql一样。

    应用场景,企业中用来做报表统计

    Spark Streaming:

    是实时数据流处理的组件,类似Storm

    Spark Streaming 提供了API来操作实时流数据

    应用场景,企业中用来从Kafka接收数据做实时统计

    MLlib:

    一个包含通用机器学习功能的包,Machine Learning lib。

    包含分类、聚类、回归等,还包括模型评估和导入。

    MLlib提供的上面这些方法,都支持集群上的扩展

    应用场景:机器学习

    查看全部
    0 采集 收起 来源:Spark生态介绍

    2018-07-12

  • Spark Core:

    1. 包含了spark的基本功能,包含任务调度、内存管理、容错机制等;

    2. 内部定义了RDDs(弹性分布式数据集)

    3. 提供了很多APIs来创建和操作这些RDDs

    4. 应用场景是为其他组件提供底层服务


    查看全部
    0 采集 收起 来源:Spark生态介绍

    2018-07-12

  • Spark的特点:

    1. 快速,扩充了流行的Mapreduce计算模型,比Hadoop快,基于内存计算,读取速度快;

    2. 通用,容纳了其他分布式系统拥有的功能:批处理、迭代式计算、交互查询和流处理,方便维护;

    3. 高度开放,提供了python、java、scala、SQL的API和丰富的内置库(Scala是spark的原生语言);和其他的大数据工具整合的很好,包括hadoop、kafka等


    查看全部
    0 采集 收起 来源:Spark简介

    2018-07-12

  • scala项目初始化结构

    查看全部
  • hadoop 离线处理 实时性要求不高的场景,中间计算数据存储在磁盘,处理时间分钟-小时

    spark 即时处理 实时性要求高的场景,中间计算数据存储在内存,处理时间秒-分钟

    查看全部
  • 11
    查看全部
    0 采集 收起 来源:Spark简介

    2018-06-13

举报

0/150
提交
取消
课程须知
1、 简单Linux的操作
老师告诉你能学到什么?
1、了解Spark到底是什么 2、了解Spark和Hadoop的区别 3、了解Spark的基础知识和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的开发和部署流程

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!