为了账号安全,请及时绑定邮箱和手机立即绑定

Hadoop进阶

mooc小牧 JAVA开发工程师
难度中级
时长 3小时 3分
学习人数
综合评分9.77
31人评价 查看评价
9.9 内容实用
9.5 简洁易懂
9.9 逻辑清晰
  • 一个Map Reduce作业要有Mapper类、Reduce类、主方法类

    查看全部
  • Hadoop分布式缓存:

    加载到内存发生在Job执行之前,每个从节点各自都缓存一份相同的共享数据,如过共享数据太大,可以将共享数据分批缓存,重复执行作业。

    查看全部
  • Reduce任务数量:

    在大数据量的情况下,如果只设置1个Reduce任务,那么在Reduce阶段,整个集群只有该节点在运行Reduce任务,其他节点都将被闲置,效率十分低下。故建议将Reduce任务数量设置成一个较大的值(最大值是72)。

    查看全部
  • 本地优化——Combine:

    数据经过Map端输入后会进行网络混写,经过Shuffle后进入Reduce,在大数据量的情况下可能会造成巨大的网络开销。故可以在本地先按照key先行一轮排序与合并,再进行网络混洗,这个过程就是Combine。

    查看全部
  • 控制Map任务的个数:

    1、增加map个数,可增大mapred.map.tasks

    2、减少map个数,可增大mapred.min.split.size

    如果要减少map个数,但有很多小文件,可将小文件合并成大文件,再使用准则2

    查看全部
  • 节点Map任务的个数:

    在实际情况下,map任务的个数是受多个条件的制约,一般一个DataNode的map任务数量控制在10到100比较合适。

    查看全部
  • Word Count实例回顾:

    1、Input(输入文件)

    2、Split阶段(分片输入阶段),将数据以<Key,Value>的形式输入到Map阶段

    3、Map阶段。得到的每一行数据都会被拆分,将原始Value拆分,重新组成新的<Key,Value>,其中新的Key为原始的Value,新的Value为该数据出现一次,最终将所有新数据输入到Shuffle阶段

    4、Shuffle阶段。该阶段比较复杂,简单解释就是将从Map得到的<Key,Value>新数据重新归类,将所有相同的Key重新归到一起,但是Value只进行归类不进行次数统计,将最后数据同样以<Key,Value>的形式输入到Reduce阶段

    5、Reduce阶段。接收到Shuffle阶段传来的数据,将数据进行处理,对每一个Value进行求和处理,最后重新生成输出结果。

    查看全部
  • Shuffle阶段:

    Shuffle阶段过程比较复杂,可以理解为从Map输出到Reduce输入的过程,而且涉及到网络传输

    查看全部
  • Map Reduce的四个阶段:

    1、Split阶段(分片输入阶段)

    2、Map阶段(需要编码)

    3、Shuffle阶段

    4、Reduce阶段(需要编码)

    查看全部
  • Map Reduce作业是一种大规模数据集的并行计算的编程模型。我们可以将HDFS中存放的海量(TB级以上)数据,通过Map Reduce作业进行计算,得到目标数据!

    查看全部
  • HDFS是Hadoop分布式文件系统的简称,由若干台计算机组成,用于存放PB、TB数量级以上的文件,每份文件可以有多个副本,多以HDFS是一个具有高冗余、高容错的文件系统。

    查看全部
    0 采集 收起 来源:hadoop体系架构

    2019-02-11

  • 在一个datanode中进行分片split

    每个split对应一个map task

    查看全部
  • split->map->“reduce(本地)”->网络混洗shuffle->reduce

    查看全部
  • 合并小文件策略
    查看全部
  • map任务个数

    查看全部

举报

0/150
提交
取消
课程须知
1、在学习本课程之前,需要学习hadoop课程基础篇,即掌握MapReduce作业的基本步骤。 2、需要掌握线性代数、向量等的基本数学知识
老师告诉你能学到什么?
1、hadoop新旧版本的基本架构 2、mapreduce作业的内部原理 3、mapreduce作业重要参数的调优 4、利用hadoop缓存实现矩阵相乘 5、简单的推荐算法

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!