为了账号安全,请及时绑定邮箱和手机立即绑定

为什么在Hive里建立外部表之后进行的计数结果和在Hbase里直接count的结果不一致?

为什么在Hive里建立外部表之后进行的计数结果和在Hbase里直接count的结果不一致?

木子二月鸟 2016-01-26 10:26:43
由于不方便截图,所以只能描述了,我尽量描述的清楚一些:在Hbase中有个表,但是不方便分字段进行统计,所以在Hive里建了一个外部表指向Hbase中的这个表,便于使用HQL进行查询,但是问题来了:在Hive中查询的记录数(无论是count1还是count*),都只有很少的记录(3600),但是在Hbase中这个记录数可是有两千多万!然后就查问题出现在哪里:在Hive里select所有记录导出到一个txt文件里,打开发现实际是有两千多万条记录的,但是如果在Hive用subtring函数截取id号的首字母进行统计,发现各个字母(A-Z)+数字(0-9)之和还是3600,我就惊了!!明明txt文件里是有两千多万行的有效记录啊,怎么hive里就只能查出来3600呢?请教各位大神,给个思路也行啊。。。
查看完整描述

1 回答

?
姆姆姆

TA贡献1条经验 获得超0个赞

hive表可能count是当前页的记录,只有3600。也有可能是hive没有完全映射habse的表

查看完整回答
反对 回复 2017-01-11
  • 1 回答
  • 0 关注
  • 2549 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信