-
hdfs缺点
查看全部 -
HDFS分布式文件系统:存储是大数据技术的基础
MapReduce:分布式计算是大数据应用的解决方案
查看全部 -
YARN:
负责整个集群的资源管理和调度
支持多种计算框架:离线批处理,内存计算,迭代计算等等
YARN主从架构:
查看全部 -
Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
HDSF数据块 64M-128M
NameNode:管理文件系统的命名空间,存放文件元数据
维护着文件系统的所有文件和目录,文件与数据块的映射
记录每个文件中各个块所在节点的信息
DataNode :存储并检索数据库块
向NameNode更新所存储块的列表
HDFS优点:适合大文件存储,支持TB,PB级别的数据存储
构建在廉价机器上,有副本,容错和恢复机制
支持流式数据的访问,一次写入,多次读取最高效
HDFS缺点:不适合大量小文件存储
不适合并发写入,不支持文件随机修改
不支持随机读等低延迟的访问
查看全部 -
大数据:大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括了实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术。
查看全部 -
数据块一般分为128M
namenode挂掉了怎么办:现在集群里面有两个namenode的节点,一台为主节点,另一台为备用节点,两台节点的数据始终保持一致,主节点出现问题时,备用节点自动切换
查看全部 -
Hadoop是一个开源的大数据框架,还是一个分布式计算的解决方案;
Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
核心:HDFS存储是大数据技术的基础
MapReduce编程模式:分布式计算是大数据应用的解 决方案
查看全部 -
应用知识:实战一:HDFS实际操作(通过shell命令/Python程序)
实战二:MapReduce程序开发实例
课程预备知识:Linux的常用命令(懂一些就行)
有一定的Python或者Java的编程基础
对Hadoop有一定的了解,可以搭建自己的测试环境
查看全部 -
hadoop查看全部
-
HDFS写流程: 客户端向NameNode发起写数据请求,分块写入DataNode节点,DataNode自动完成副本备份.DataNode向NameNode汇报存储完成,NameNode通知客户端
HDFS读流程: 客户端向NameNode发起读数据请求,NameNode找出最近的DataNode节点信息,客户端从DataNode分块下载文件。
查看全部 -
HDFS缺点
查看全部 -
HDFS优点
查看全部 -
HDFS实际操作(通过shell命令和python程序)
MapReduce程序开发实例
查看全部 -
HDFS读流程
查看全部 -
HDFS的构成以及写流程
查看全部
举报