-
RDD弹性分布式数据集
查看全部 -
利用HDFS作为文件系统,MR程序读取数据,可存储非结构化和半结构化数据,也可存储结构化数据。对于海量的小数据可以用Hbase
ROWKey Colum Family
查看全部 -
HBase 分布式数据库
查看全部 -
延伸思考?
查看全部 -
Mapreduce 分而治之
查看全部 -
数据块一般设置为128M,设置太小的话对于Namenode的内存消耗会比价严重,namenode存储了整个集群的数据快的信息,数据块设置太大,对并行支持就不太好了
Hadoop2有两个namenode节点,一个是主节点另一个为备用节点处于standby状态,两个节点数据时刻保持一致。一旦主节点挂掉,备用节点立马启用
查看全部 -
Shell访问HDFS hdfs dfs -cat指定目录文件 通过python访问HDFS HDFS3:python一个模块 实例化后是一个访问HDFS的一个客户端查看全部
-
PETHON查看全部
-
Hadoop是什么
1.Hadoop是一个开源的大数据框架
2.Hadoop是一个分布式计算的解决方案
3.Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
Hadoop核心
HDFS分布式文件系统:存储是大数据技术的基础
MapReduce:分布式计算是大数据应用的解决方案
查看全部 -
课程预备知识
查看全部 -
课程的目标
查看全部 -
大数据方向
查看全部 -
什么是大数据
查看全部 -
2-4Python 未学习查看全部
-
HDFS的概念
数据块
NameNode
DataNode
查看全部
举报