首页手记 windos下spark2.3.2源码编译

windos下spark2.3.2源码编译

标签：

Spark

当时在学习spark的时候，编译过spark2.11源码，当时也遇到过不少坑，导致编译过程坎坷。时过境迁，目前spark的最新版本是spark2.3.2。这次跟着官网指导编译一下最新代码。

前期注意事项

本人系统环境是windows10,IDE 为idea2017
本次编译是通过Maven编译，Maven版本为3.3.9，不用SBT编译
自Spark 2.2.0起，对Java 7的支持已被删除！
给Maven多配置一点内存，防止编译期间OOM异常，官网推荐

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

ReservedCodeCacheSize设置是可选的，但建议都加上否则可能出现警告或者异常。

[INFO] Compiling 203 Scala sources and 9 Java sources to /Users/me/Development/spark/core/target/scala-2.11/classes...
[ERROR] Java heap space -> [Help 1]

建议修改maven的安装目录下的conf/settings.xml文件中添加如下配置，以达到jar下载加速的效果

 <!-- 阿里云中央仓库 -->
 <mirrors>
     <mirror>
      <id>alimaven</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>
  </mirrors>

构建

去官网下载源码包

http://spark.apache.org/downloads.html

执行命令

./build/mvn -DskipTests clean package

spark编译要在 bash环境下进行如git的bash环境，否则可能报错

开始编译，运行效果如下图：

此期间别急。机器不好的，网不好的，稍安勿躁，阿弥陀佛，等就对了。

37分钟后编译全部模块完成。

IntelliJ运行编译后的代码

打开IntelliJ idea open 编译过后的源代码，等待加载indexing，不要选import sbt project
找到org.apache.spark.examples中的一个example添加本地方法，测试运行。

image.png

官网中的提示：

“Rebuild Project” 第一次编译项目的时候可能失败，点击这个按钮“Generate Sources and Update Folders For All Projects”
有一些模块路径是idea识别不了的，需要手工选一下，在“Project Settings” 然后选中 “Modules” 模块。
- spark-hive: add v0.13.1/src/main/scala
- spark-streaming-flume-sink: add target\scala2.11\src_managed\main\compiled_avro
- spark-catalyst: add target\scala-2.11\src_managed\main
  比如idea执行报错，无法找到SparkFlumeProtocol类，进入view=>tool window=>maven project中找到Spark Project External Flume Sink模块，右键选择Generate Sources and update Folders，并在lifecycle中compile改模块。
执行测试类的时候出现Exception in thread "main" java.lang.NoClassDefFoundError: 错误
解决方法：
Menu -> File -> Project Structure -> Modules -> spark-examples_2.11 -> Dependencies 添加依赖 jars -> {spark dir}/spark/assembly/target/scala-2.11/jars/
如果还碰到哪个模块导致找不到类在idea中选中单个maven模块重新mvn clean compile一下

其他编译命令

mvn 还可以加-P参数指定hadoop版本，指定构建Hive 、JDBC 、Mesos 、Kubernetes 、Kafka、Flume 的支持版本

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -DskipTests clean package
./build/mvn -Pyarn -Phive -Phive-thriftserver -DskipTests clean package
./build/mvn -Pmesos -DskipTests clean package
./build/mvn -Pkubernetes -DskipTests clean package
./build/mvn -Pkafka-0-8 -DskipTests clean package
./build/mvn -Pflume -DskipTests clean package

指定单一模块进行构建

如果修改了一个模块的源代码，想构建后跑起来的话，可以用-pl命令构建单个模块，节省大量时间。

./build/mvn -pl :spark-streaming_2.11 clean install

官网还推荐用make-distribution.sh脚本继续打包编译

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phadoop-2.7 -Phive -Phive-thriftserver -Pmesos -Pyarn -Pkubernetes

***bash环境下运行上面命令，这个脚本和mvn本质一样，但会帮助我们自动设置maven参数和jvm参数，如脚本中就有这段代码export MAVEN_OPTS="${MAVEN_OPTS:--Xmx2g -XX:ReservedCodeCacheSize=512m}"

作者：梧上擎天
链接：https://www.jianshu.com/p/be462368503f

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕的地10843

手记
篇

粉丝

202

获赞与收藏

967

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32882 371

网络编程入门教程

20个小节 13641 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空