为了账号安全,请及时绑定邮箱和手机立即绑定

Spark从零开始

Terby JAVA开发工程师
难度初级
时长 2小时18分
学习人数
综合评分9.80
56人评价 查看评价
9.8 内容实用
9.7 简洁易懂
9.9 逻辑清晰
  • RDDs combineByKey()

    查看全部
  • keyvalue RDDs


    查看全部
  • keyvalue RDDs

    查看全部
  • RDD持久化

    查看全部
    0 采集 收起 来源:RDDS的特性

    2019-07-06

  • Rdds的延迟计算

    查看全部
    0 采集 收起 来源:RDDS的特性

    2019-07-06

  • RDDs的特性

    查看全部
    0 采集 收起 来源:RDDS的特性

    2019-07-06

  • driver

    查看全部
    0 采集 收起 来源:Rdds介绍

    2019-06-06

  • spark
    查看全部
    0 采集 收起 来源:Spark简介

    2019-05-21

  • Scala安装

        默认安装选项会自动配置环境变量

        spark 1.6.2 -Scala 2.10

        spark 2.0.0 -Scala 2.11

    在Intellij 上安装插件

        在Plugins,搜索Scala 直接安装,插件中有Scala和sbt

    新建项目

        file->new->project->scala->sbt

        sbt version 0.13.8  ----  scala version 2.10.5

    搭建开发环境经常遇到的问题

        网络问题;

        版本匹配问题(Scala2.10.5,jdk1.8,spark1.6.2,sbt0.113.8)


    查看全部
  • spark的运行环境:

        基于Scala ,运行在JVM,运行环境Java7+

    spark下载:

        搭建spark不需要Hadoop,下载后解压

        虚拟机(Linux)联网状态下,通过  wget+下载链接

        Linux解压命令  tar -zxvf spark.....

    spark目录

        bin目录-可执行文件

        core,streaming主要包含组件源代码

        examples 包含单机例子

    spark的shell:

        梳理分布在集群上的数据

        可以将数据加载到节点的内存中,因此分布式处理可在秒级完成。

        快速迭代计算,实时查询、分析

        spark提供了Python shell和Scala shell

    Scala shell

        /bin/spark-shell

    查看全部
    1 采集 收起 来源:spark安装

    2019-04-23

  • spark与Hadoop的比较

        Hadoop的应用场景:离线处理,对时效性要求不高

        spark的应用场景:对时效性要求高,机器学习领域


    查看全部
  • spark core:

        包含spark的基本功能,任务调度,内存管理,容错机制

        内部定义了RDDs,弹性分布式数据集

    spark sql:

        是spark处理结构化数据的库

    spark streaming:

        实时数据流处理组件

    milb:

        包含通用机器学习功能的包,分类,聚类,回归

        支持起群上的横向扩展

    graphx:

        处理图的库,并进行图的并行计算

    cluster managers:  

        集群管理


    紧密集成的优点

    1.     spark底层优化了,基于spark的底层组件也会得到相应的优化。

    2. 紧密继承节省了各个组价组合使用时的部署,测试等时间

    3. 向spark增加新的组件时,其他组件,可立刻享用新组建的功能。

    查看全部
    2 采集 收起 来源:Spark生态介绍

    2019-04-23

    1. spark 是一个快速且通用的集群计算平台

    2. 基于内存的运算

    3. 通用性;降低维护成本

    4. spark是高度开放的;Python Java scala haddoop

    查看全部
    0 采集 收起 来源:Spark简介

    2019-04-23

  • Hadoop适合处理离线的静态的大数据
    Spark适合处理离线的流式的大数据
    Storm适合处理在线的实时的大数据


    查看全部
  • 通用性 - Spark提供大量的库,包括Spark Core、Spark SQL、 Spark Streaming、MLlib、Graphx.开发者可以在同一个应用程序中无缝组合使用这些库。
    
    支持多种资源管理器 - Spark支持Hadoop YARN, Apache Mesos, 及其自带的独立集群管理器。


    查看全部
    0 采集 收起 来源:Spark生态介绍

    2019-04-07

举报

0/150
提交
取消
课程须知
1、 简单Linux的操作
老师告诉你能学到什么?
1、了解Spark到底是什么 2、了解Spark和Hadoop的区别 3、了解Spark的基础知识和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的开发和部署流程

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!