-
RDDs combineByKey()
查看全部 -
keyvalue RDDs
查看全部 -
keyvalue RDDs
查看全部 -
RDD持久化
查看全部 -
Rdds的延迟计算
查看全部 -
RDDs的特性
查看全部 -
driver
查看全部 -
spark查看全部
-
Scala安装
默认安装选项会自动配置环境变量
spark 1.6.2 -Scala 2.10
spark 2.0.0 -Scala 2.11
在Intellij 上安装插件
在Plugins,搜索Scala 直接安装,插件中有Scala和sbt
新建项目
file->new->project->scala->sbt
sbt version 0.13.8 ---- scala version 2.10.5
搭建开发环境经常遇到的问题
网络问题;
版本匹配问题(Scala2.10.5,jdk1.8,spark1.6.2,sbt0.113.8)
查看全部 -
spark的运行环境:
基于Scala ,运行在JVM,运行环境Java7+
spark下载:
搭建spark不需要Hadoop,下载后解压
虚拟机(Linux)联网状态下,通过 wget+下载链接
Linux解压命令 tar -zxvf spark.....
spark目录
bin目录-可执行文件
core,streaming主要包含组件源代码
examples 包含单机例子
spark的shell:
梳理分布在集群上的数据
可以将数据加载到节点的内存中,因此分布式处理可在秒级完成。
快速迭代计算,实时查询、分析
spark提供了Python shell和Scala shell
Scala shell
/bin/spark-shell
查看全部 -
spark与Hadoop的比较
Hadoop的应用场景:离线处理,对时效性要求不高
spark的应用场景:对时效性要求高,机器学习领域
查看全部 -
spark core:
包含spark的基本功能,任务调度,内存管理,容错机制
内部定义了RDDs,弹性分布式数据集
spark sql:
是spark处理结构化数据的库
spark streaming:
实时数据流处理组件
milb:
包含通用机器学习功能的包,分类,聚类,回归
支持起群上的横向扩展
graphx:
处理图的库,并进行图的并行计算
cluster managers:
集群管理
紧密集成的优点
spark底层优化了,基于spark的底层组件也会得到相应的优化。
紧密继承节省了各个组价组合使用时的部署,测试等时间
向spark增加新的组件时,其他组件,可立刻享用新组建的功能。
查看全部 -
spark 是一个快速且通用的集群计算平台
基于内存的运算
通用性;降低维护成本
spark是高度开放的;Python Java scala haddoop
查看全部 -
Hadoop适合处理离线的静态的大数据 Spark适合处理离线的流式的大数据 Storm适合处理在线的实时的大数据
查看全部 -
通用性 - Spark提供大量的库,包括Spark Core、Spark SQL、 Spark Streaming、MLlib、Graphx.开发者可以在同一个应用程序中无缝组合使用这些库。 支持多种资源管理器 - Spark支持Hadoop YARN, Apache Mesos, 及其自带的独立集群管理器。
查看全部
举报