-
hadoop生态圈
查看全部 -
python程序使用MapReduce统计单词数可供将来使用参考
查看全部 -
python操作HDFS代码可参考,具体使用时需要看hdfs3的API文档
查看全部 -
常用HDFS的Shell命令:
类似Linux系统:ls、cat、mkdir、rm、chmod、chown等
HDFS文件交互:copyFromLocal、copyToLocal、get、put
查看全部 -
IPython 编辑器
Hadoop的map,reduce方法
查看全部 -
MapReduce编程模型 就是分而治之的方法论
Hadoop1.0 与 Hadoop2.0的区别
查看全部 -
HDFS SHELL
查看全部 -
数据块的大小设置为多少合适?为什么?
NameNode有哪些容错的机制,如果挂了,该怎么办?
查看全部 -
grep命令查看全部
-
截图....
查看全部 -
hadoop数据块的大小一般设置为128M,如果数据块设置的太小,一般的文件也会被分割为多个数据块,在访问的时候需要查找多个数据块的地址,这样的效率很低,而且如果数据块设置太小的话,会消耗更多的NameNode的内存;而如果数据块设置过大的话,对于并行的支持不是太好,而且会涉及系统的其他问题,比如系统重启时,需要从新加载数据,数据块越大,耗费的时间越长。
NameNode出现错误怎么办?其容错机制
2. NameNode容错机制,目前的hadoop2可以为之为HA(高可用)集群,集群里面有两个NameNode的节点,一台为主节点,一台为从节点,两者的数据时刻保持一致,当主节点出现问题时,从节点可以自动切换,用户基本感知不到,这样就避免了NameNode的单点问题。
查看全部 -
HDFS读流程
查看全部 -
HDFS的写流程
查看全部 -
HDFS写流程
通过客户端Client写入数据Data的流程:
(1)Client向NameNode发起写入请求;
(2)NameNode查找自身存储的关于三个DataNode的信息,并反馈给Client;
(3)Client根据反馈信息,将Data分为两个数据块1和2;
(4)Client根据反馈信息将数据块1传给DataNode1,DataNode1将数据块1传给DataNode2,DataNode2将数据块1传给 DataNode3,进行保存;并将信息反馈给NameNode,之后namenode进行数据块2的依次分配。
(5)待所有流程都结束后,datanode会向namenode提交信息反馈,会client停止与namenode的写操作。
查看全部 -
HDFS的优点
(1)适合大文件存储,支持TB、PB级的数据存储,并有副本策略;
(2)可以构建在廉价的机器上,并有一定的容错和恢复机制;
注:Hadoop2的容错机制,Hadoop可以配置成HA(高可用集群),包含两个NameNode节点,其中一个处于“active”状态(主节点),另一个处于“standby”状态(备用节点)
查看全部
举报