最赞回答 / qq_单纯永远_0
HBase Hive用途: 弥补Hadoop的实时操作 减少并行计算编写工作的批处理系统检索方式:适用于检索访问 适用于全表扫描存储: 物理表 纯逻辑表功能: HBase只负责组织文件 Hive既要储存文件又需要计算框架执行效...
2018-12-28
已采纳回答 / 叁金
谈一下我的感受吧,太多所谓的大数据工程师候选人,对于hadoop、hive、spark这些常用的大数据开源工具说的很6,但是java基础薄弱(开发能力薄弱)。其实其他岗位和方向都一样,hadoop、hive、spark如何使用,应届生给个一两个月都能学会。但是如何针对性的修改,优化就能看出真正的水平了。大数据不光涉及到后端开发,在你维护hadoop集群的过程中,你还属于运维。不要想太多,just do it
2018-12-07
最赞回答 / Cybtron
一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两阶段会对数据排序,从这个意义上说,MapReduce框架本质就是一个Distributed Sort。在Map阶段,Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件(中间可能产生多个文件,但最终会合并成一个),在Reduce阶段,每个Reduce Task会对收到的数据排序,这样,数据便按照Key分成了若干组,之后以组为单位交给reduce()处理。很多人的误解在Map阶段,如果不使用Combiner便不会...
2018-10-24