首页手记 pypy on PySpark

pypy on PySpark

标签：

Spark

什么是pypy

简单的说，pypy 基于jit静态编译，相比cpython 动态解释执行，因此执行速度上会更高效，同时减少了内存使用。

对三方包的支持一直是pypy的软肋，特别是一些科学计算包，不过在最新的 pypy5.9 中终于对Pandas和NumPy提供了支持。

一个简单的例子:
test1:

import time
t = time.time()
i = 0for i in xrange(10**8):    continueprint time.time() - t

test2:

import time
t = time.time()
i = 0for i in xrange(10**8):
    i = i + 1print time.time() - t

case	pypy	Cpython
test1	0.25s	4.3s
test2	0.25s	10s

tips:

不难发现，在 pure python 的测试中，一些场景会有几十倍的性能提升。

不过在Pandas和NumPy的性能测试中，发现pypy会比Cpython慢4x-5x。

可以使用Numpypy替代NumPy，性能又能得到提升：
原因参考：https://morepypy.blogspot.com/2017/10/how-to-make-your-code-80-times-faster.html

PySpark

在python driver端，SparkContext利用Py4J启动一个JVM并产生一个JavaSparkContext

RDD在python下的转换会被映射成java环境下PythonRDD。在远端worker机器上，PythonRDD对象启动一些子进程并通过pipes与这些子进程通信。

使用 pypy 则是将与SparkWorker通信的Cpython进程替换成pypy进程。

pypy on PySpark

可以在 Spark-env.sh 中设置 export PYSPARK_PYTHON =/path/to/pypy 或者提交程序时指定--conf spark.pyspark.python=/path/to/pypy等方式进行提交。

加载python执行环境的代码

测试代码：

//filter
rdd.filter(lambda x:x['addr'] != 'beijing')

//mapimport redef simpleMobileVerify(phone):
    p2 = re.compile('^0\d{2,3}\d{7,8}$|^1[358]\d{9}$|^147\d{8}')
    phonematch = p2.match(phone)    if(phone):        return phone    else:        return Nonerdd.map(lambda x:simpleMobileVerify(x['accountMobile'])).filter(lambda x : x != None)

case	pypy	Cpython
filter	60s	67s
map	11s	22s

在filter这种IO密集型的任务中提升不大，在计算密集型的任务中提升较为明显，提升比例与计算复杂度成正相关。

下图为一个计算指标任务的执行时间，其中红框部分使用pypy调度：

执行耗时

结论：

在真实的pySpark任务中，根据不同类型的任务提升幅度不同，可以根据不同的业务场景以及使用的三方包，使用Cpython和pypy。

作者：breeze_lsw
链接：https://www.jianshu.com/p/c2df78b50a62

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕哥9229398

手记
篇

粉丝

199

获赞与收藏

913

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 29438 330

网络编程入门教程

20个小节 12134 232

Pandas 入门教程

25个小节 17734 319

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

pypy on PySpark

什么是pypy

tips:

PySpark

pypy on PySpark

结论：

阅读免费教程