为了账号安全,请及时绑定邮箱和手机立即绑定
  • Hadoop是一个开源的大数据框架;

    Hadoop是分布式计算的解决方案;

    Hadoop = HDFS(分布式文件系统) (存储)+ MapReduce(分布式计算)

    HDFS总结:

         普通的成百上千台机器;TB甚至PB为单位的大量的数据;简单便捷的文件获取;

    HDFS概念:

       1.数据块 

             数据块是抽象块,而非整个文件作为存储单元;默认大小为64M,一般设置128M,备份3个;

       2.NameNode

             管理文件系统的命名空间,存放文件元数据;维护着文件系统的所有文件和目录,文件与数据块的映射;记录每个文件中各个块所在数据节点的信息;

       3.DataNode

            存储并检索数据块;向NameNode更新所存储块的列表;

    HDFS优点:

         适合大文件存储,支持TB、PB级别的数据存储,并有副本策略;可以构建在廉价的机器上,并有一定的容错和恢复机制;支持流式数据访问,一次写入,多次读取最高效;

    HDFS缺点:

        不支持大量小文件的存储;不适合并发写入,不支持文件随机修改;不支持随机读等低延时的访问方式;


    查看全部
  • 什么是大数据?

    大数据即使一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。

    大数据包括了以Hadoop和spark为代表的基础大数据框架。还包括实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术

    查看全部
  • 什么是大数据?

    大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术

    查看全部
  • 1

    查看全部
  • hdfs3

    https://img1.sycdn.imooc.com//5ad55e76000106b112420312.jpg

    https://img1.sycdn.imooc.com//5ad55f8b0001083705820305.jpg

    https://img1.sycdn.imooc.com//5ad55f570001415507310245.jpg

    https://img1.sycdn.imooc.com//5ad560d20001b89707330206.jpg

    https://img1.sycdn.imooc.com//5ad561650001dd8507460297.jpg

    查看全部
  • Spark简介

    https://img1.sycdn.imooc.com//5ad55aa5000141cb10200374.jpg

    Spark优势

    https://img1.sycdn.imooc.com//5ad55ae20001a72809760462.jpg

    查看全部
    0 采集 收起 来源:Spark简介

    2018-04-17

  • HBase简介

    https://img1.sycdn.imooc.com//5ad559860001efe109410478.jpg

    简单介绍

    https://img1.sycdn.imooc.com//5ad55a0b00018c9b09290286.jpg

    查看全部
    0 采集 收起 来源:HBase简介

    2018-04-17

  • Hadoop生态圈

    https://img1.sycdn.imooc.com//5ad5587f0001c43c06660515.jpg

    查看全部
  • 问题

    https://img1.sycdn.imooc.com//5ad557f9000194f910750492.jpg

    查看全部
  • map方法

    https://img1.sycdn.imooc.com//5ad54efd0001b31d06950515.jpg

    reduce方法

    https://img1.sycdn.imooc.com//5ad551500001a3bf08960557.jpg

    测试

    https://img1.sycdn.imooc.com//5ad5527600017d4212500417.jpg

    在进行Reduce方法时进行了sort(排序)

    提交到Hadoop框架上

    https://img1.sycdn.imooc.com//5ad5538300014ce312490548.jpg

    https://img1.sycdn.imooc.com//5ad553ff0001831b09880069.jpg

    查询

    https://img1.sycdn.imooc.com//5ad554340001c40711170133.jpg

    打印结果

    https://img1.sycdn.imooc.com//5ad5549c0001da2507460036.jpg

    查看全部
    0 采集 收起 来源:MapReduce实战

    2018-04-17

  • NameNode

    查看全部
  • hdfs 块储存

    查看全部
  • YARN(Haoop2之后的资源管理器)概念

          1.ResourceManager:分配和调度资源;启动并监控ApplicationMaster; 监控NodeManager

          2.ApplicatonMaster:为MR类型的程序申请资源,并分配给内部任务;负责数据的切分;监控任务的执行及容错;

          3.NodeManager:管理单个节点的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令

         MapReduce是一种编程模型,是一种编程方法,是抽象的理论;

    MapReduce编程模型

          输入一个大文件,通过Split之后,将其分为多个分片;每个文件分片由单独的机器去处理,这就是Map方法  ;将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法;

    查看全部
  • https://img1.sycdn.imooc.com//5ad200d00001770809970384.jpg

    https://img1.sycdn.imooc.com//5ad201bc000193e810240369.jpg

    查看全部
  • HDFS读流程

    1. 客户端向NameNode发起读数据请求;

    2. NameNode找出距离最近的DataNode节点信息;

    3. 客户端从DataNode分块下载文件;

    查看全部

举报

0/150
提交
取消
课程须知
有Linux命令使用基础,有Python编程基础
老师告诉你能学到什么?
大数据到底是个啥,大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!