-
Hadoop 是什么:
是一个开源的大数据框架,
是一个分布式计算的解决方案。
查看全部 -
hadoop = HDFS + MapReduce
查看全部 -
hadoop生态圈查看全部
-
Spark优势
查看全部 -
SPARK:
基于内存计算的大数据计算框架
MapReduce的替代方案
兼容HDFS,HIVE数据源
弹性分布式数据集RDD
抽象出分布式内存存储数据结构 弹性分布式数据集RDD
基于事件驱动,通过线程池复用线程提高性能
查看全部 -
HBase分布式数据库
HBase关键字
RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不要超过3个
TimeStamp时间戳:支持多版本数据同时存在
注:HBase可以存小文件,结构,非结构数据,HDFS适合储存大文件
查看全部 -
HBase分布式数据库
查看全部 -
Hadoop生态圈
Hive是一个数据仓库,提供大量结构化数据的检索功能;
HBase是一个列式数据库;
Spark是一个基于内存的分布式计算框架
查看全部 -
# _*_ coding:utf-8 _*_ import sys from operator import itemgetter from itertools import groupby def read_mapper_output(file,separator='\t'): for line in file: yield line.rstrip().split(separator,1) def main(): data = read_mapper_output(sys.stdin) for current_word,group in groupby(data,itemgetter(0)) total_count = sum(int(count) for current_word, count in group) print("%s%s%d"%(current_word,'\t',total_count))
查看全部 -
# _*_ coding:utf-8 _*_ import sys def read_input(file): for line in file: yield line.split() def main(): data = read_input(sys.stdin) for words in data: for word in words: print("%s%s%d"%(word,'\t',1)) if __name__ == '__main__': main()
查看全部 -
python统计数组元素长度
查看全部 -
MapReduce编程模型
输入一个大文件,通过Split之后,将其分为多个分片;
每个文件分片有单独的机器去处理,这就是Map方法;
将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法
查看全部 -
YARN中的NodeManager
查看全部 -
YARN中的ApplicationMaster
查看全部 -
YARN概念
是Hadoop2.0以后的资源管理器,负责整个集群资源的管理和调度,所有的MapReduce程序都要通过YARN来进行调度
(1)ResourceManager
分配和调度资源;启动并监控ApplicaMaster;监控NodeManager
(2)ApplicationMaster
为MapReduce类型的程序申请资源,并分配给内部任务;负责数据的切分;监控任务的执行及容错
(3)NodeManager
管理单个节点的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
查看全部
举报