为了账号安全,请及时绑定邮箱和手机立即绑定
  • HDFS由一个NameNode和多个DataNode组成。

    NameNode作用:

    1、管理文件系统的命名空间,存放文件元数据。

    2、维护着文件系统的所有文件和目录,文件与数据块的映射。

    3、记录每个文件中各个块所在数据节点的信息。

    DataNode是文件系统的工作节点,作用:

    1、存储并检索数据块。

    2、向NameNode更新所存储块的列表


    查看全部
  • Spark简介:

    1、基于内存计算的大数据并行计算框架

    2、Spark是Map Reduce的替代方案,兼容HDFS,HIVE等数据源

    查看全部
    0 采集 收起 来源:Spark简介

    2019-02-11

  • HBase简介:

    RowKey:数据唯一标识,按字典排序,主键

    ColumnFamily:列族,多个列的集合,最多不要超过3个

    查看全部
    0 采集 收起 来源:HBase简介

    2019-02-10

  • HBase简介:

    高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库

    利用HDFS作为其文件存储系统,支持MR程序读取数据

    存储非结构化和半结构化数据

    查看全部
    0 采集 收起 来源:HBase简介

    2019-02-10

  • Map Reduce编程模型:

        输入一个大文件,通过Split之后,将其分为多个分片

        每个文件分片由单独的机器去处理,这就是Map方法

        将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法

    查看全部
  • YARN是Hadoop2.0以后的资源管理器,负责整个集群的资源的管理和调度,所有的Map Reduce程序都需要通过它来进行调度。

    YARN概念:

    Resource Manager

        分配和调度资源

        启动并监控Application Master

        监控Node Manager

    Application Master

        为MR类型的程序申请资源,并分配给内部任务

        负责数据的切分

        监控任务的执行及容错

    Node Manager

        管理单个节点的资源

        处理来自Resource Manager的命令

        处理来自Application Master的命令

    查看全部
  • Hadoop两大核心:

    1、HDFS分布式文件系统:存储是大数据技术的基础

    2、Map Reduce编程模型:分布式计算是大数据应用的解决方案

    查看全部
  • HDHS读流程:

    1、客户端向Name Node发起读数据请求

    2、Name Node找出距离最近的Data Node 节点信息

    3、客户端从Data Node分块下载文件

    查看全部
  • HDFS写流程:

    1、客户端向Name Node发起写数据请求

    2、分块写入Data Node节点,Data Node自动完成副本备份

    3、Data Node向Name Node汇报存储完成,Name Node通知客户端

    查看全部
  • 所有文件的访问都要通过Name Node来进行,所以Name Node至关重要

    Name Node容错机制:

    1、第一种方法是把文件元数据写入NFS,备份在另一台机器上。备份操作是同步的原子的

    2、第二种方法是运行辅助的Name Node,不过这个Name Node不提供服务,它只是把操作日志Merge到Metadata中,但是如果主Name Node失效,总有一部分数据来不及Merge,会造成数据丢失。所以一般的做法是把NFS中备份的数据拷贝到这个Name Node,并作为主Name Node运行。

    查看全部
  • HDFS数据块大小一般设置为64MB或者128MB。

    不能远小于64MB:

    1、减少硬盘寻道时间

    2、减少Name Node内存消耗。Name Node记录着Data Node中的数据块信息,若数据块太小,数据块数量就会过多,需要维护的数据块信息就会增多,从而消耗Name Node的内存

    也不能远大于64MB:(主要原因从Map Reduce框架来说明)

    1、Map崩溃,系统需要重启,重启需要重新加载数据块,数据块越大,加载时间越长,系统恢复过程越长

    2、监管时间问题,主节点会在一个预设的时间间隔内监管其他节点的情况,每个节点会周期性的与主节点进行汇报通信,超过预设时间主节点会记录该节点死亡,并将该节点的数据转发给别的节点。数据块越大,预设时间估算越不精准,容易对系统造成不必要的损失和资源浪费

    3、问题分解问题,同一个算法里,数据块越大,时间复杂度越高

    4、约束Map输出。在Map Reduce框架里,Map之后的数据要经过排序才执行Reduce操作,这通常涉及到归并排序,归并排序算法思想是“对小文件进行排序,然后将小文件归并成大文件”

    查看全部
  • YARN,Hadoop2.0之后的资源管理器,

    ResourceManager, 分配和调度资源,启动并监控ApplicationMaster,监控NodeManager

    ApplicationMaster

    NodeManager

    查看全部
  • 1.查看hdfs的帮助信息

    hdfs dfs -help

    2.查看hdfs文件系统根目录下的所有目录与文件

    hdfs dfs -ls /

    3.将文件从本地复制到hdfs文件系统中

    hdfs dfs -copyFromLocal / +路径

    4.将文件从hdfs文件系统中下载到本地虚拟机

    hdfs dfs -copyToLocal / +路径


    查看全部
  • 常用HDFS Shell命令

    查看全部
  • RowKey:数据唯一标识,按字典排序

    Column Family:列族,多个列的集合。最多不要超过3个

    查看全部
    0 采集 收起 来源:HBase简介

    2019-01-15

举报

0/150
提交
取消
课程须知
有Linux命令使用基础,有Python编程基础
老师告诉你能学到什么?
大数据到底是个啥,大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!