为了账号安全,请及时绑定邮箱和手机立即绑定
  • Hadoop 是什么:

    是一个开源的大数据框架,

    是一个分布式计算的解决方案。

    查看全部
  • hadoop = HDFS + MapReduce

    查看全部
  • hadoop生态圈
    查看全部
  • Spark优势

    查看全部
    0 采集 收起 来源:Spark简介

    2018-06-10

  • SPARK:

    • 基于内存计算的大数据计算框架

    • MapReduce的替代方案

    • 兼容HDFS,HIVE数据源

    • 弹性分布式数据集RDD

    抽象出分布式内存存储数据结构 弹性分布式数据集RDD

    基于事件驱动,通过线程池复用线程提高性能


    查看全部
    0 采集 收起 来源:Spark简介

    2018-06-10

  • HBase分布式数据库

    HBase关键字

    RowKey:数据唯一标识,按字典排序

    Column Family:列族,多个列的集合,最多不要超过3个

    TimeStamp时间戳:支持多版本数据同时存在

    注:HBase可以存小文件,结构,非结构数据,HDFS适合储存大文件


    查看全部
    0 采集 收起 来源:HBase简介

    2018-06-10

  • HBase分布式数据库

    查看全部
    0 采集 收起 来源:HBase简介

    2018-06-10

  • Hadoop生态圈


    Hive是一个数据仓库,提供大量结构化数据的检索功能;

    HBase是一个列式数据库;

    Spark是一个基于内存的分布式计算框架


    查看全部
  • # _*_ coding:utf-8 _*_
    
    import sys
    from operator import itemgetter
    from itertools import groupby
    
    def read_mapper_output(file,separator='\t'):
        for line in file:
            yield line.rstrip().split(separator,1)
    
    def main():
        data = read_mapper_output(sys.stdin)
        for current_word,group in  groupby(data,itemgetter(0))
            total_count = sum(int(count) for current_word, count in group)
    
            print("%s%s%d"%(current_word,'\t',total_count))


    查看全部
    0 采集 收起 来源:MapReduce实战

    2018-06-10

  • # _*_ coding:utf-8 _*_
    
    import sys
    
    def read_input(file):
        for line in file:
            yield line.split()
    
    def main():
        data = read_input(sys.stdin)
    
        for words in data:
            for word in words:
                print("%s%s%d"%(word,'\t',1))
    
    if __name__ == '__main__':
        main()


    查看全部
    0 采集 收起 来源:MapReduce实战

    2018-06-10

  • python统计数组元素长度

    查看全部
    0 采集 收起 来源:MapReduce实战

    2018-06-10

  • MapReduce编程模型

    输入一个大文件,通过Split之后,将其分为多个分片;

    每个文件分片有单独的机器去处理,这就是Map方法;

    将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法


    查看全部
  • YARN中的NodeManager

    查看全部
  • YARN中的ApplicationMaster

    查看全部
  • YARN概念

    是Hadoop2.0以后的资源管理器,负责整个集群资源的管理和调度,所有的MapReduce程序都要通过YARN来进行调度

    (1)ResourceManager

    分配和调度资源;启动并监控ApplicaMaster;监控NodeManager

    (2)ApplicationMaster

    为MapReduce类型的程序申请资源,并分配给内部任务;负责数据的切分;监控任务的执行及容错

    (3)NodeManager

    管理单个节点的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令


    查看全部

举报

0/150
提交
取消
课程须知
有Linux命令使用基础,有Python编程基础
老师告诉你能学到什么?
大数据到底是个啥,大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!