-
rdd.transfomat操作: 1.map操作:将一个rdd变成一个可以和原来不同的内容排序的rdd 2.fileter:返回一个只符合条件的rdd 3.flatMap:将数据进行压扁生成一个新的rdd查看全部
-
Driver program:包含了main方法 sparkContext:链接spark集群,一般直接使用shell创建好的对象sc即可 rdds:弹性分布数据集,spark如果大数据量时会自动将片分配到每一个节点上,各个片的总名称就是rdds 对象 创建rdds的两种对象: 1.使用sc.prilize对象 2.使用sc.textFile()加载外部对象 3.scala:匿名函数和类型推断。 line2.Filter(line=>line.contains("world")) 即line2通过Filter的方法将每一行赋值给line,然后line在调用contains方法确认哪一行是否包含有world,这个单词,有则返回给line2,查看全部
-
spark组件: spark code:定义了spark的基本功能 spark streaming:实时数据流处理组件 spark sql:是spark 处理结构化数据的库,就像hive sql,mysql一样 mlib:通用集群学习的功能包 graphx:图像处理查看全部
-
saprk是一个快速且通用的集群计算模型: spark是快速的: spark扩展了MapReduce的计算模型 spark是基于内存计算的 spark是通用的: spark容纳了其他的分布式系统拥有的功能,批处理,迭代式处理,交互式查询和流处理查看全部
-
spark是一个快速且通用的集群计算平台查看全部
-
RDDS的特性 RDDS的血统关系图,Spark维护着RDDS之间的依赖关系以及创建关系,叫做血统关系图,Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。 延迟计算,没有action,转换操作没有意义。 持久化:如果想重复利用一个RDD,可以使用RDD.persist()来持久化到缓存中,因为默认每次在RDDS上action操作时,Spark都要重新计算RDDS查看全部
-
地址相关路径 http://192.168.193.111:8080/ http://192.168.193.111:8081/查看全部
-
启动集群: 启动master ./sbin/start-master.sh 启动worker ./bin/spark-class 提交作业 ./bin/spark-submit 启动master ./sbin/start-master.sh 启动worker ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077 提交作业 ./bin/spark-submit --master spark://localhost.localdomain:7077 --class WordCount /home/spark/testspark.jar查看全部
-
spark程序打jar包 1、配置jar包 2、build查看全部
-
// 增加依赖配置 libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "1.6.2")查看全部
-
搭建开发环境常遇到的问题查看全部
-
Idea新建项目相关的版本选择查看全部
-
Scala版本与Spark版本关系查看全部
-
spark代码hello world查看全部
-
spark运行环境和版本对应关系查看全部
举报
0/150
提交
取消