-
Spark目录:
bin包含用来和spark交互的可执行文件,如spark shell
core, streaming ,python,包含主要组件的源代码
examples包含一些单机Spark job,可以研究和运行这些例子
Spark的shell:
Spark的shell使得能够处理分布在集群上的数据
Spark把数据加载到节点的内存中,因此,分布式处理可以在秒级完成。
快速式迭代式计算,实时查询、分析一般能够在shell中完成
spark提供了python shells和Scala shells
python shells位于bin/pyspark
scala shell位于 bin/spark-shell
查看全部 -
WordCount程序
查看全部 -
Scala项目。。
查看全部 -
版本版本版本
查看全部 -
版本不一样,安装报错,标记下。
查看全部 -
Spark安装
Spark运行环境:
Spark是用Scala写的,运行在JVM上,所以运行环境Java7+
如果是用Python API,需要安装Python 2.6+ 或者Python3.4+
查看全部 -
版本设置标记。
查看全部 -
Spark和Hadoop的比较
Hadoop应用场景:离线处理、对时效性要求不高,因为hadoop的中间数据在硬盘上
Spark应用场景:时效性要求高的场景&机器学习
两者都是拥有完整的生态系统,每个组件都有其作用,各善其职;
Spark不具有HDFS的存储能力,要借助HDFS等持久化数据
查看全部 -
Graphx:是处理图的库(例如,社交网络图),并进行图的并行计算。
像,spark streaming,Spark SQL一样,他也继承了RDD API
他提供了各种图的操作,和常用的图算法
Cluster Managers:集群管理,Spark自带一个集群管理是一个单独调度器。
常见集群管理包括Hadoop YARN,apache Mesos
查看全部 -
Spark SQL:
是Spark处理结构化数据的库,就像Hive SQL,Mysql一样。
应用场景,企业中用来做报表统计
Spark Streaming:
是实时数据流处理的组件,类似Storm
Spark Streaming 提供了API来操作实时流数据
应用场景,企业中用来从Kafka接收数据做实时统计
MLlib:
一个包含通用机器学习功能的包,Machine Learning lib。
包含分类、聚类、回归等,还包括模型评估和导入。
MLlib提供的上面这些方法,都支持集群上的扩展
应用场景:机器学习
查看全部 -
Spark Core:
包含了spark的基本功能,包含任务调度、内存管理、容错机制等;
内部定义了RDDs(弹性分布式数据集)
提供了很多APIs来创建和操作这些RDDs
应用场景是为其他组件提供底层服务
查看全部 -
Spark的特点:
快速,扩充了流行的Mapreduce计算模型,比Hadoop快,基于内存计算,读取速度快;
通用,容纳了其他分布式系统拥有的功能:批处理、迭代式计算、交互查询和流处理,方便维护;
高度开放,提供了python、java、scala、SQL的API和丰富的内置库(Scala是spark的原生语言);和其他的大数据工具整合的很好,包括hadoop、kafka等
查看全部 -
scala项目初始化结构
查看全部 -
hadoop 离线处理 实时性要求不高的场景,中间计算数据存储在磁盘,处理时间分钟-小时
spark 即时处理 实时性要求高的场景,中间计算数据存储在内存,处理时间秒-分钟
查看全部 -
11查看全部
举报