首页手记 spark初识一

spark初识一

标签：

Spark

spark 介绍

spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效。

spark一个大一统的软件栈

Spark的各个组件如图所示：

Spark软件栈

Spark Core 实现了Spark的基本功能：任务调度、内存管理、错误恢复、存储系统交互模块以及弹性分布式数据集api定义
Spark Sql 是Spark来操作结构化数据的程序包，可以让我使用SQL语句的方式来查询数据，Spark支持多种数据源，包含Hive表，parquest以及JSON等内容。
Spark Streaming 是Spark提供的实时数据进行流式计算的组件。
Mlib 是Spark中提供的常见的机器学习功能的程序库。
GraphX 是一种操作图的程序库。可以进行并行的图计算。
集群管理器高效的运行在一个计算节点到数千个计算节点伸缩计算。

应用场景

Yahoo将Spark用在Audience Expansion中的应用，进行点击预测和即席查询等
淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等。应用于内容推荐、社区发现等
腾讯大数据精准推荐借助Spark快速迭代的优势，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通pCTR投放系统上。
优酷土豆将Spark应用于视频推荐(图计算)、广告业务，主要实现机器学习、图计算等迭代计算。

核心概念简介

在每个Spark程序运行过程中，我们都是由一个驱动器程序(SparkContext)发起来并发集群上的各种并行操作。并且驱动程序主要包含在main函数中。定义了集群上的分布式数据集。
我们创建好SparkConext之后就可以创建RDD,在此基础上进行各种操作，如collect,count等等
在我们执行这些操作的时候，驱动程序一般会管理多个执行器节点。这个节点是跟在配置的cpu核心数有关。1:1的对比关系。核心数越多代表我们并行的任务越多

执行器
代码简单实现

@Componentpublic class SparkTest implements Serializable {    
    @Autowired
    private transient JavaSparkContext  scContext;    
    public void  sparkContextTest() {
        SparkConf  conf = new SparkConf().setMaster("local").setAppName("My App Test");     
    }
}

maven 配置文件

        
  <properties>      
          <scala.version>2.10.4</scala.version>
          <spark.version>1.6.2</spark.version>
        
    </properties>

    <!-- spark 相关内容 -->
         <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.10.4</version>
        </dependency>
        
            <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>${spark.version}</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>log4j</groupId>
                    <artifactId>log4j</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-launcher_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
    </dependencies>

构建完成我们第一个程序。

作者：LuckQI
链接：https://www.jianshu.com/p/3daa4bc432b8

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕姐8265434

手记
篇

粉丝

224

获赞与收藏

1070

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32884 371

网络编程入门教程

20个小节 13641 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

spark初识一

spark 介绍

spark一个大一统的软件栈

应用场景

核心概念简介

阅读免费教程