首页手记 Spark & Alluxio

Spark & Alluxio

标签：

Spark

概述

Alluxio（在1.0版本之前名为Tachyon）是一个以内存分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外，Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。

Spark使用Alluxio的好处有如下几点:

数据可以长期存储在内存中，多个应用可以共享缓存数据
数据缓存在JVM外部可以减少程序的GC时间
缓存的数据不会因为程序的意外崩溃而消失
Alluxiou与Hadoop兼容，无需修改spark代码，可直接运行

配置

Alluxio的编译部署

从源码主分支编译支持Spark，Hadoop2.4的Alluxio

git clone git://github.com/alluxio/alluxio.gitcd alluxio
mvn install -Pspark -Dhadoop.version=2.4.1 -DskipTests

如果需要编译一个指定的版本，使用git的checkout命令即可，例如编译1.2版本

cd alluxiogit checkout v1.2.0

在HDFS上配置Alluxio

编译完成后，修改配置文件

cd alluxio/conf
cp alluxio-env.sh.template alluxio-env.sh
ALLUXIO_UNDERFS_ADDRESS=hdfs://localhost:9000/alluxioALLUXIO_MASTER_HOSTNAME=xxx
ALLUXIO_RAM_FOLDER=/home/admin/alluxio/ramdisk

在Spark上配置Alluxio

可以在spark-env.sh中配置SPARK_CLASSPATH

export SPARK_CLASSPATH=/usr/install/alluxio/core/client/target/alluxio-core-client-1.3.0-SNAPSHOT-jar-with-dependencies.jar

在spark1.6以上，可以配置在spark-defaults.conf中

spark.executor.extraClassPath /usr/install/alluxio/core/client/target/alluxio-core-client-1.3.0-SNAPSHOT-jar-with-dependencies.jar
spark.driver.extraClassPath /usr/install/alluxio/core/client/target/alluxio-core-client-1.3.0-SNAPSHOT-jar-with-dependencies.jar

修改spark/conf下的core-site.xml

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
  <description>The Alluxio FileSystem (Hadoop 1.x and 2.x)</description></property><property>
  <name>fs.alluxio-ft.impl</name>
  <value>alluxio.hadoop.FaultTolerantFileSystem</value>
  <description>The Alluxio FileSystem (Hadoop 1.x and 2.x) with fault tolerant support</description></property><property>
  <name>fs.AbstractFileSystem.alluxio.impl</name>
  <value>alluxio.hadoop.AlluxioFileSystem</value>
  <description>The Alluxio AbstractFileSystem (Hadoop 2.x)</description></property>

启动Alluxio

./bin/alluxio format
./bin/alluxio-start.sh local

此时可以通过http://localhost:19999访问Alluxio web ui,运行一个test

./bin/alluxio runTests

如果运行成功可以在Browse中看到生成的default_tests_files文件

在Alluxio上运行Spark

就和从普通的文件系统中读取文件一样

将LICENSE上传到HDFS的alluxio目录

hadoop fs -put -f /alluxio/LICENSE hdfs://localhost:9000/alluxio/LICENSE

进行一些操作

val s = sc.textFile("alluxio://localhost:19998/LICENSE")
val double = s.map(line => line + line)double.saveAsTextFile("alluxio://localhost:19998/LICENSE2")

可以在web ui 中看到保存的文件，当然DataFrame的操作也是一样的，例如

val df = sc.parallelize(Seq("zhangsan","lisi")).toDF("name")
df.write.parquet("alluxio://localhost:19998/people")

一些运行截图

这里写图片描述

作者：breeze_lsw
链接：https://www.jianshu.com/p/03814bdec0b4

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕哥9229398

手记
篇

粉丝

199

获赞与收藏

913

关注作者，订阅最新文章

相关文章推荐

Spark+Alluxio性能调优十大技巧

Alluxio (前身为Tachyon) 加速 Spark 数据分析

当SparkSQL遇上Alluxio

alluxio安装集群模式

Spark 系列（一）—— Spark简介

阅读免费教程

后端通用面试教程

41个小节 30273 342

网络编程入门教程

20个小节 12461 235

Pandas 入门教程

25个小节 18362 330

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Spark &amp; Alluxio

概述

配置