-
HDFS由一个NameNode和多个DataNode组成。
NameNode作用:
1、管理文件系统的命名空间,存放文件元数据。
2、维护着文件系统的所有文件和目录,文件与数据块的映射。
3、记录每个文件中各个块所在数据节点的信息。
DataNode是文件系统的工作节点,作用:
1、存储并检索数据块。
2、向NameNode更新所存储块的列表
查看全部 -
Spark简介:
1、基于内存计算的大数据并行计算框架
2、Spark是Map Reduce的替代方案,兼容HDFS,HIVE等数据源
查看全部 -
HBase简介:
RowKey:数据唯一标识,按字典排序,主键
ColumnFamily:列族,多个列的集合,最多不要超过3个
查看全部 -
HBase简介:
高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库
利用HDFS作为其文件存储系统,支持MR程序读取数据
存储非结构化和半结构化数据
查看全部 -
Map Reduce编程模型:
输入一个大文件,通过Split之后,将其分为多个分片
每个文件分片由单独的机器去处理,这就是Map方法
将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法
查看全部 -
YARN是Hadoop2.0以后的资源管理器,负责整个集群的资源的管理和调度,所有的Map Reduce程序都需要通过它来进行调度。
YARN概念:
Resource Manager
分配和调度资源
启动并监控Application Master
监控Node Manager
Application Master
为MR类型的程序申请资源,并分配给内部任务
负责数据的切分
监控任务的执行及容错
Node Manager
管理单个节点的资源
处理来自Resource Manager的命令
处理来自Application Master的命令
查看全部 -
Hadoop两大核心:
1、HDFS分布式文件系统:存储是大数据技术的基础
2、Map Reduce编程模型:分布式计算是大数据应用的解决方案
查看全部 -
HDHS读流程:
1、客户端向Name Node发起读数据请求
2、Name Node找出距离最近的Data Node 节点信息
3、客户端从Data Node分块下载文件
查看全部 -
HDFS写流程:
1、客户端向Name Node发起写数据请求
2、分块写入Data Node节点,Data Node自动完成副本备份
3、Data Node向Name Node汇报存储完成,Name Node通知客户端
查看全部 -
所有文件的访问都要通过Name Node来进行,所以Name Node至关重要
Name Node容错机制:
1、第一种方法是把文件元数据写入NFS,备份在另一台机器上。备份操作是同步的原子的
2、第二种方法是运行辅助的Name Node,不过这个Name Node不提供服务,它只是把操作日志Merge到Metadata中,但是如果主Name Node失效,总有一部分数据来不及Merge,会造成数据丢失。所以一般的做法是把NFS中备份的数据拷贝到这个Name Node,并作为主Name Node运行。
查看全部 -
HDFS数据块大小一般设置为64MB或者128MB。
不能远小于64MB:
1、减少硬盘寻道时间
2、减少Name Node内存消耗。Name Node记录着Data Node中的数据块信息,若数据块太小,数据块数量就会过多,需要维护的数据块信息就会增多,从而消耗Name Node的内存
也不能远大于64MB:(主要原因从Map Reduce框架来说明)
1、Map崩溃,系统需要重启,重启需要重新加载数据块,数据块越大,加载时间越长,系统恢复过程越长
2、监管时间问题,主节点会在一个预设的时间间隔内监管其他节点的情况,每个节点会周期性的与主节点进行汇报通信,超过预设时间主节点会记录该节点死亡,并将该节点的数据转发给别的节点。数据块越大,预设时间估算越不精准,容易对系统造成不必要的损失和资源浪费
3、问题分解问题,同一个算法里,数据块越大,时间复杂度越高
4、约束Map输出。在Map Reduce框架里,Map之后的数据要经过排序才执行Reduce操作,这通常涉及到归并排序,归并排序算法思想是“对小文件进行排序,然后将小文件归并成大文件”
查看全部 -
YARN,Hadoop2.0之后的资源管理器,
ResourceManager, 分配和调度资源,启动并监控ApplicationMaster,监控NodeManager
ApplicationMaster
NodeManager
查看全部 -
1.查看hdfs的帮助信息
hdfs dfs -help
2.查看hdfs文件系统根目录下的所有目录与文件
hdfs dfs -ls /
3.将文件从本地复制到hdfs文件系统中
hdfs dfs -copyFromLocal / +路径
4.将文件从hdfs文件系统中下载到本地虚拟机
hdfs dfs -copyToLocal / +路径
查看全部 -
常用HDFS Shell命令
查看全部 -
RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合。最多不要超过3个
查看全部
举报