首页手记 Spark从入门到放弃系列(一) -----Spark...

Spark从入门到放弃系列(一) -----Spark RDD持久化

标签：

大数据

1. 原理

Spark一个重要的功能该特性就是将RDD持久化到内存中。当对RDD进行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并在之后对RDD的反复使用中，直接使用内存中缓存的partition。这样的话，对于一个RDD反复执行的操作场景中，就只需要对RDD计算一次即可，而不需要反复计算RDD。巧妙使用RDD持久化,甚至在某种场景下，可以将spark应用程序性能提升10倍。对于迭代式算法和快速交互应用来说，RDD的持久化吃非常必要的。

要持久化一个RDD，只需要调用RDD的cache()或者persist()方法即可。在该RDD第一次被计算出来时，就会直接缓存到每个节点中。而且Spark的持久化机制还是自动容错的，如果持久化的RDD的任何partition丢失了，那么Spark会自动通过其源RDD,使用transformation操作重新计算该partition。

cache()和presist()的区别在于，cache()是persist()的一种简化方式，cache()的底层就是调用persist()的无参版本，即调用persist(MEMORY_ONLY),将数据持久化到内存中。如果需要从内存中清除缓存，那么可以使用unpersist()方法。

Spark自己在shuffle过程中，会进行数据的持久化，比如写在磁盘中，主要是为了在节点失败时，避免需要重新计算整个过程。

2.代码实现

2.1 Java代码实现

public class Persist{

   public static void main(String []args){
         SparkConf conf = new SparkConf()
            .setAppName("persist")
            .setMaster("local");

      JavaSparkContext sc = new JavaSparkContext(conf);

      JavaRDD<String> lines = sc.textFile("c://xx.xx.txt").cache();

      long beginTime = System.currentTimeMillis();
      long count = lines.count();
      System.out.println(count);
      long endTime = System.currentTimeMillis();
      System.out.println("costTime : " + (endTime - beginTime));

      sc.close();
   }
}

2.2 Scala代码实现

public class Persist{
   public static void main(String []args){

      val conf = new SparkConf()
        .setAppName("persist")
        .setMaster("local")

      val sc = new SparkContext(conf)

      val lines = sc.textFile("c://xx.xx.txt").cache()

      long beginTime = System.currentTimeMillis()
      long count = lines.count()
      System.out.println(count)
      long endTime = System.currentTimeMillis()
      System.out.println("costTime : " + (endTime - beginTime))

      sc.close()
   }
}

原文出处

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

0 评论

评论

共同学习，写下你的评论

暂无评论

展开查看更多评论

作者其他优质文章

正在加载中

至尊宝的传说

手记
129篇

粉丝

82

获赞与收藏

464

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 31681 356

网络编程入门教程

20个小节 13008 246

Pandas 入门教程

25个小节 19149 362

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Spark从入门到放弃系列(一) -----Spark RDD持久化

1. 原理

2.代码实现

阅读免费教程