首页手记从零到一spark进阶之路（二）

从零到一spark进阶之路（二）

标签：

Python

从零到一spark进阶之路（二）
关于从零到一spark进阶之路（一）内容请点击下面的直通车
1.1RDD
（0）随便找个点理解以下
（1）RDD的特点
（2）RDD的好处
（3）RDD的内部属性
1.2RDD操作
1.2.1 转化操作
1.2.2 行动操作

直通车

2.如何创建RDD？

操作环境：python3.5

两种方式：①读取外部数据集② 在驱动器程序中对一个集合进行并行化
RDD可以从普通数组创建出来，也可以从文件系统或者HDFS中的文件创建出来。

from pyspark import SparkContextfrom pyspark import SparkContext as scfrom pyspark import SparkConfimport os
os.environ["PYSPARK_PYTHON"]="D:\office3\python\\anaconda3.5\\3.5\envs\python35\\python"##任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以，但不支持Java)。#getOrCreate表明可以视情况新建session或利用已有的sessionconf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)#（a）利用list创建一个RDD;使用sc.parallelize可以把Python list，NumPy array或者Pandas Series,Pandas DataFrame转成Spark RDD。rdd = sc.parallelize([1,2,3,4,5])123456789101112

print(rdd)#查看list被分成了几部分print(rdd.getNumPartitions())#查看分区的状态print(rdd.glom().collect())12345

ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:480
3
[[1], [2, 3], [4, 5]]

下面不指定分区，执行语句

rdd = sc.parallelize([1,2,3,4,5])

print(rdd)
print(rdd.getNumPartitions())
print(rdd.glom().collect())12345

ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:480
8
[[], [1], [], [2], [3], [], [4], [5]]

电脑是配置，逻辑8核。多次执行结果一样。可以看出创建了8 个executor。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕斯卡3302699

算法工程师

手记
篇

粉丝

58

获赞与收藏

314

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27554 930

Python 算法入门教程

15个小节 30304 1172

Python 进阶应用教程

38个小节 73037 1146

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

从零到一spark进阶之路（二）

操作环境：python3.5

阅读免费教程