-
spark不具有hdfs一样的持久化数据的能力,需要借助hdfs存储数据查看全部
-
spark stream处理实时流数据,如收集从kafaka处理的数据进行实时统计查看全部
-
sparkSQL处理结构化数据库查看全部
-
快速且通用的集群计算平台 扩充了hadoop的mapreduce模型查看全部
-
spark,hadoop,kafka spark基于内存,很通用,批式,流式,图,分布式…… 大数据处理平台查看全部
-
使用standalone mode启动spark:命令行输入
$ cd software/spark-2.4.4-bin-hadoop2.7/sbin $ ./start-master.sh 会输出log文件地址xxx $ tail xxx 会输出log文件末尾,找到Starting Spark master at spark://xxx.local:7077, 也可以浏览器访问http://localhost:8080/,出现视频中的网页
参考https://uohzoaix.github.io/studies//2014/09/13/sparkRunning/
查看全部 -
这里还可以写笔记啊
查看全部 -
Spark组件具有紧密集成的优点:
1、Spark底层优化了,基于Spark底层的组件,也得到了相应的优化。
2、紧密集成,节省了各个组件组合使用时的部署,测试等时间。
3、向Spark增加新的组件时,其他组件可以立刻享用新组件的功能
Spark Core:
1、包含Spark的基本功能,包含任务调度,内存管理,容错机制等。
2、内部定义了RDDs(弹性分布式数据集)。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景,为其他组件提供底层的方服务。
查看全部 -
RDDs的特性:
血统关系图,
延迟计算,
.persist()缓存
查看全部 -
开发Spark程序
查看全部 -
Spark Shell
查看全部 -
Spark对比Hadoop(2)
查看全部 -
Spark对比Hadoop(1)
查看全部 -
Spark采用紧密集成框架的优势
查看全部 -
Spark 集群管理
查看全部
举报
0/150
提交
取消