-
resourcemanager:
1、分配调度资源
2、启动并监控applicationmanager
3、监控nodemanager
查看全部 -
hdfs读文件:
1、客户端向namenode发起读数据请求
2、namenode返回给客户端文件的元数据信息(哪些数据块存储在哪些datanode)
3、客户端从datanode下载数据块,并合并数据块
查看全部 -
hdfs写流程:
1、客户端向namenode发起写数据请求,namenode返回datanode信息
2、客户端将文件分块,将第一块写进datanode,各个datanode自动完成数据块备份
3、datanode向namenode汇报完成第一块的存储,namenode通知客户端
4、开始写第二块第三块,重复步骤2和3
查看全部 -
1、数据块一般设置为128M;
2、nemenode通常通过HA做高可用:主节点和备用节点
查看全部 -
hdfs缺点
查看全部 -
hdfs优点
查看全部 -
datanode:存储并检索数据块;向namenode更新所存储的块的列表
查看全部 -
namenode:管理文件系统的命名空间,存储文件元数据;维护文件系统的所有目录和文件,文件和数据块的映射;记录每个文件各个块所在的数据节点的信息
查看全部 -
Spark: 基于内存的大数据并行计算框架。是MapReduce的替代方案,是现在的主流计算框架。兼容HDFS, Hive, MySQL, PosgreSQL等数据源。
Spark优势:1.基于内存分布式计算 2.分布式内存存储结构 —— RDD(弹性分布式数据集)3.基于事件驱动,通过复用线程提高性能
查看全部 -
HBase 支持MapReduce程序读取数据
查看全部 -
https://blog.csdn.net/yihuaiyan/article/details/84938661
搭建环境卡了两天,有需要可以参考下以上链接
查看全部 -
Hadoop核心
HDFS分布式文件系统:存储是大数据技术的基础
MAPReduce编程模型:分布式计算是大数据应用的解决方案
HDFS 概念
数据块:是抽象快而非整个文件作为存储单元,默认大小为64MB,一般设置为128MB,备份X3
NameNode:
管理文件系统的 ,存放文件元数据
维护文件系统的所有文件和目录,文件与文件块的映射
记录每个文件中各个块所在数据节点 的信息
DataNode
存储并检索数据块
向NameNode更新所存储块的列表
HDFS优点
适合大数据存储,支持TB/PB级的数据存储,并有副本策略
可构建在廉价的机器上,并有一定 的容错和恢复机制
支持流式数据访问,一次写入,多次读取最高效
HDFS缺点
不适合大量小文件存储
不适合并发写入 ,不支持文件随机修改
不支持随机读等低延时的访问方式
查看全部 -
Hive:数据仓库,提供大量结构化数据检索的功能。
Spark:基于内存的分布式计算框架。
Sqoop:传统数据库与Hadoop之间导入导出的工具。
Ambari:Hadoop集群管理部署和监控的框架。
查看全部 -
Hadoop查看全部
-
2123123
查看全部
举报