-
Hadoop&Spark比较 Hadoop应用场景: 离线处理,时效性要求不高的场景:Hadoop中间数据落到硬盘上,导致Hadoop处理大数据时,时效性不高,时间在几分钟到几小时不等,但数据可以存储。 Spark应用场景: 时效性要求高的场景和机器学习:Spark基于内存,中间数据多在内存中,数据处理块,但Spark不具备hdfs存储功能,需借助hdfs Doug Cutting 的观点: spark这是个生态系统,每个组件都有其作用,各姗其职即可, Spark不具有HDFS的存储能力,要借助HDFS等持久数据 大数据将会孕育出更多的新技术查看全部
-
spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。 spark组件: spark core:spark基本功能,包括任务调度,内存管理,容错机制 内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为其他组件提供底层服务 spark sql:spark处理结构化数据的库,类似Hive SQL,MySql,主要为企业提供报表统计 spark streaming:实时数据流处理组件,类似Storm,提供API操作实时流数据,企业中用来从Kafka中接收数据做实时统计 Mlib:机器学习功能包,包括聚类,回归,模型评估和数据导入。同时支持集群平台上的横向扩展 Graphx:处理图的库,并进行图的并行计算 Cluster Manager是:spark自带的集群管理 Spark紧密集成的优点: spark底层优化,基于spark底层的组件也得到相应的优化,紧密集成节省了组件的部署,测试时间查看全部
-
Spark的组件查看全部
-
Spark课程大纲查看全部
-
Spark是一个快速且通用的集群计算平台。 Spark是快速的: Spark扩充了流行的MapReduce计算模型; Spark是基于内存的计算。 Spark是通用的: Spark的设计容纳了其它分布式系统拥有的功能; 批处理,迭代式计算,交互查询和流处理等。查看全部
-
Mlib:集成的机器学习包 Graphx:处理图像,图的计算查看全部
-
Spark是Scala写的,在jvm上运行,运行环境java7+查看全部
-
Doug Cutting 的观点: spark这是个生态系统,每个组件都有其作用,各姗其职即可, Spark不具有HDFS的存储能力,要借助HDFS等持久数据 大数据将会孕育出更多的新技术查看全部
-
Spark时效性高,基于内存反应在几秒查看全部
-
Hadoop 离线处理、时效性要求不高查看全部
-
紧密集成的优点: Spark底层优化了,基于Spark底层的组件,也得到了相应的优化。 紧密集成,节省了各个组件组合使用时的部署,测试等时间。 向Spark增加新的组件时,其他组件,立刻享用新组建的功能查看全部
-
Cluster Managers: 就是集群管理,Spark自带一个集群管理是单独调度器。 常见集群管理包括Hadoop YARN,Apache Mesos查看全部
-
Graphx: 是处理图的库(社交网络图),并进行图的并行计算。 像Spark Streaming,Spark SQL一样,它也继承了RDD API 它提供了各种图的操作,和常用的图算法,例如PangeRank算法。查看全部
-
Mlib: 一个包含通用机器学习功能的包,Machine learning lib 包含分类、聚类、回归等,还包括模型评估,和数据导入。查看全部
-
Spark Core: Spark基本功能,包含任务调度、内存管理、容错机制 内部定义:RDDs(弹性分布式数据集) 提供APIs来创建和操作这些RDDs 应用场景,为其他组件提供底层的服务。查看全部
举报
0/150
提交
取消