-
分布式存储,主节点负责分发,告诉客户端具体从节点信息,然后客户端直接访问从节点
查看全部 -
flom日志采集工具?查看全部
-
使用sqoop将hdfs中指定目录的数据导出到mysql中
查看全部 -
具体操作步骤
查看全部 -
使用Sqoop将计算结果导出到Mysql
1、快速安装Sqoop工具
2、数据导出功能开发,使用Sqoop将MapReduce计算的结果导出到MysQL中
查看全部 -
任务执行结果监控、预警
1、针对任务执行结果进行检测,如果执行失败,,则重试任务
2、脚本开发
查看全部 -
任务定时脚本封装
1、把任务提交命令进行封装,方便使用,便于定时任务调度
2、脚本开发
查看全部 -
自定义Writable代码实现
1、由于原始数据中涉及到多个需要统计的字段,所以可以把这几个字段统一记录在一个自定义数据类型中,方便使用。
2、代码实现
查看全部 -
数据统计代码实现
1、对数据中的金币数量,总观看pv,粉丝数量,视频总开播时长等指标进行统计
2、统计每天开播时长最长的前10名主播及对应的开播时长
3、代码实现
查看全部 -
原始数据清洗代码实现
1、由于原始数据是通过日志方式进行记录的,在使用日志采集工具采集到HDFS之后,还需要对数据进行清洗过滤,丢弃缺失字段的数据,针对异常字段进行标准化处理
查看全部 -
需求分析
1、运营部门需要针对主播每天的开播数据进行分析,统计出来每天受欢迎程度比较高的一些主播,进而对这些主播分发更多流量,挖掘更大价值。
查看全部 -
shuffle作用:将相同分区的数据拉取到统一reduce节点进行处理
查看全部 -
多文件处理过程2
查看全部 -
多文件处理过程1
查看全部 -
需要开发者实现:
Map阶段的第二步骤
Reduce阶段的第三步骤
查看全部
举报