-
scala变量分配 var val查看全部
-
foreach遍历查看全部
-
spark程序打jar包 1、配置jar包 2、build查看全部
-
Spark 1.6.2 ——Scala 2.10 Spark 2.0.0——Scala 2.1.1查看全部
-
快速:秒和分级别,相比hadoop的分和时 通用:应用场景多 快速: 1、扩充hadoop的Mapreduce计算模型 2、基于内存计算章节 通用: 1、容纳其他分布式系统功能,具有批计算,迭代式计算,交互查询和流处理 2、高度开发,提供多yu8yan的API,具有丰富的内置库查看全部
-
延迟计算查看全部
-
。。。。查看全部
-
123查看全部
-
启动master ./sbin/start-master.sh 启动worker ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077 提交作业 ./bin/spark-submit --master spark://localhost.localdomain:7077 --class WordCount /home/spark/testspark.jar查看全部
-
启动集群: 启动master ./sbin/start-master.sh 启动worker ./bin/spark-class 提交作业 ./bin/spark-submit查看全部
-
Hadoop应用场景: 离线处理,时效性要求不高的场景:Hadoop中间数据落到硬盘上,导致Hadoop处理大数据时,时效性不高,时间在几分钟到几小时不等,但数据可以存储。 Spark应用场景: 时效性要求高的场景和机器学习:Spark基于内存,中间数据多在内存中,数据处理块,但Spark不具备hdfs存储功能,需借助hdfs查看全部
-
spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。 spark组件: spark core:spark基本功能,包括任务调度,内存管理,容错机制 内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为其他组件提供底层服务 spark sql:spark处理结构化数据的库,类似Hive SQL,MySql,主要为企业提供报表统计 spark streaming:实时数据流处理组件,类似Storm,提供API操作实时流数据,企业中用来从Kafka中接收数据做实时统计 Mlib:机器学习功能包,包括聚类,回归,模型评估和数据导入。同时支持集群平台上的横向扩展 Graphx:处理图的库,并进行图的并行计算 Cluster Manager是:spark自带的集群管理 Spark紧密集成的优点: spark底层优化,基于spark底层的组件也得到相应的优化,紧密集成节省了组件的部署,测试时间查看全部
-
快速:秒和分级别,相比hadoop的分和时 通用:应用场景多 快速: 1、扩充hadoop的Mapreduce计算模型 2、基于内存计算章节 通用: 1、容纳其他分布式系统功能,具有批计算,迭代式计算,交互查询和流处理 2、高度开发,提供多yu8yan的API,具有丰富的内置库查看全部
-
Spark是Scala写的,运行再jvm上的,运行环境java7以上查看全部
-
RDD 基本操作 Transformation(转换) val lines = sc.parallelize(Array("hello","spark","spark","hello","!")) lines.freach(println) lines.map(workd=>(word,1)) 每一个元素+1 filter() lines.filter(world=>word.constains("hello")) flatMap() 压扁,返回一个新的Rdd查看全部
举报
0/150
提交
取消