-
scala的匿名函数和类型推断
lines.filter(line=》line。contains(“world”))
定义一个匿名函数,接受一个参数line,
使用line这个string类型变量上的contains方法,并且返回结果。
line的类型不许指定,能够推断出来。
查看全部 -
scala声明变量的例子,val和var
查看全部 -
scala的基础知识,
scala的变量声明:
在scala中创建变量的时候,必须使用val或者var
val,变量值不可修改,一旦分配不能重新指向别的值
var,分配后,可以指向类型相同的值。
查看全部 -
rdds的创建方法,
加载外部数据集。
val rddtext=sc。textfile(“hellospark。txt”)
查看全部 -
输出rdd个数,rdd.count()
//测试用
遍历变量并打印,rdd.foreach(print)
rdd.foreach(println)
查看全部 -
rdds的创建方法,
把一个存在的集合传给sparkcontext的parallelize()方法,测试用
val rdd= sc.parallelize(Array(1,2,2,4),4)
第一个参数:待并行化处理的集合,
第二个参数:分区个数。
查看全部 -
RDDs介绍,
一个rdd是一个不可改变的分布式集合对象。
spark中,所有的计算都是通过rdds的创建,转换,操作完成的。
一个rdd内部由许多partitions(分片)组成。
查看全部 -
RDDs 介绍
resilient distributed datasets(弹性分布式数据集,简写RDDs)
这些rdds,并行的分布在整个集群中。
rdds是spark分发数据和计算的基础抽象类。
查看全部 -
RDDs介绍,sparkcontext,
集群的连接
在shell中sparkcontext自动创建好,就是sc
查看全部 -
RDDs介绍,定义和操作
节点,executors。
查看全部 -
可以看到spark集群上的wordcount程序在跑,是4040端口,jobs。
查看全部 -
用 rz -be命令可以上传一个本地文件
查看全部 -
详细的集群启动操作,相关的参数
查看全部 -
开发完spark程序后,启动集群:
启动master ./sbin/start-master.sh
启动worker ./bin/spark-class
提交作业 ./bin/spark-submit
查看全部 -
如何添加jar包,有两种选择方式
查看全部
举报