-
HDFS 写流程
查看全部 -
HDFS 写流程
查看全部 -
Spark简介:
1、基于内存计算的大数据并行计算框架
2、Spark是Map Reduce的替代方案,兼容HDFS,HIVE等数据源
查看全部 -
HBase(Hadoop Database)
是一个分布式 NoSQL 列存储数据库;
利用 HDFS 作为其文件存储系统,支持MR程序读取数据;
存储非结构化和半结构化数据;
还可利用 Zookeeper 作为协同服务
hbase可以存小文件,结构,非结构数据,hdfs 适合储存大文件
查看全部 -
YARN:
负责整个集群的资源管理和调度
支持多种计算框架:离线批处理,内存计算,迭代计算等等
查看全部 -
数据块是抽象块而非整个文件作为存储单元
默认大小64M,一般设置为128M,备份X3
查看全部 -
HDFS实际操作(通过shell命令和python程序)
MapReduce程序开发实例
查看全部 -
大数据:大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括了实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术。
查看全部 -
HDFS缺点
查看全部 -
HDFS优点
查看全部 -
NameNode
查看全部 -
默认大小为64MB,一般设置为128M,备份X3 ?
查看全部 -
HDFS总结
查看全部 -
Linux常用命令
查看全部 -
大数据 ?
以Hadoop为代表
数据分析的技术
查看全部
举报