为了账号安全,请及时绑定邮箱和手机立即绑定

hadoop中实现join的方式有哪些?

hadoop中实现join的方式有哪些?

SMILET 2018-11-11 19:15:16
hadoop中实现join的方式有哪些
查看完整描述

1 回答

?
慕尼黑5688855

TA贡献1848条经验 获得超2个赞

reduce side join是一种最简单的join方式,其主要思想如下:
在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag),比如:tag=0表示来自文件File1,tag=2表示来自文件File2。即:map阶段的主要任务是对不同文件中的数据打标签。
在reduce阶段,reduce函数获取key相同的来自File1和File2文件的value list, 然后对于同一个key,对File1和File2中的数据进行join(笛卡尔乘积)。即:reduce阶段进行实际的连接操作。
REF:hadoop join之reduce side join

查看完整回答
反对 回复 2018-12-08
  • 1 回答
  • 0 关注
  • 847 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信