-
HDFS的特点
查看全部 -
Hadoop核心
查看全部 -
Hadoop是什么?
查看全部 -
课程大纲
理论知识
查看全部 -
大数据方向好不好?
查看全部 -
什么是大数据?
大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上尽心各种数据分析的技术。
大数据包括了以Hadoop和Spark为代表的基础大数据框架
还包括实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术
查看全部 -
Hadoop基础与演练
查看全部 -
进行数据分析技术查看全部
-
HBase是一个高可靠,高性能,面先烈,可伸缩,实时读写的分布式数据库
用来存储非结构化和半结构化数据
RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不要超过3个
TimeStamp时间戳:支持多版本数据同时存在
查看全部 -
HDFS写流程:客户端向NameNode发起写数据请求,分块写入DataNode节点,DataNode自动完成副本备份,然后向NameNode汇报存储完成,由NameNode通知客户端
HDFS读流程:客户端向NameNode发起读数据请求,NameNode找出距离最近的DataNode节点信息,客户端从DataNode分块下载文件
查看全部 -
HDFS概念
数据块 数据块是抽象块而非整个文件作为存储单元,一般设置为128M,备份*3
NameNode 主。管理文件系统的命名空间,存放文件元数据
维护着文件系统的所有文件和目录,文件与数据块的映射
记录每个文件中各个块所在数据节点的信息
DataNode 工作节点。存储并检索数据块,向NameNode更新所存储块的列表
HDFS的优点:适合大文件存储,并有副本策略;可以构建在廉价的机器上,并有一定的容错和恢复机制;支持流式数据访问,一次写入,多次读取最高效。
HDFS的缺点:不适合大量小文件存储;不适合并发写入,不支持文件的随即修改,只能后期append添加;不支持随机读写等低延时的访问方式
查看全部 -
for i in range(10**10): print('thank you very much!!!')
查看全部 -
常用的HDFS shell命令
类Linux系统:ls、cat、mkdir、rm、chomod、chown
HDFS文件交互:copyfromlocal、copytolocal/get、put
查看全部 -
HDFS的概念:
数据块:
namenode:
datanode:
查看全部 -
Hadoop是一个开源的大数据框架
Hadoop是一个分布式计算的解决方案
Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
查看全部
举报