最新回答 / weibo_风清绿茵_03299175
你可以运行hive时先把hive查询的结果保存在一个linux本地上的一个临时文件中,然后用linux指令把linux上的临时文件下载到本地文件中
2017-08-27
最新回答 / 慕粉1054033006
安装在Master节点。Hive的HQL最终的执行总是会转换为M/D任务的,那么自然要在JobTracker上执行,通过JobTracker交给TaskTracker执行。
2017-04-25
最赞回答 / 黄老虎
这里有两个问题:1 哈希运算2 索引关于第一个问题,我猜你是指Hive的bucket table吧?假如我没猜错,那hash计算达到的目的其实是将数据切片,这样这些数据片可以比较均匀得分布在分布式系统的不同的节点上,查询的时候呢也可以尽量运用多个节点的并行计算能力来提高查询速度。第2个问题,索引是一种数据结构,比如红黑树。设想一下,如果要从10个数字里找出任意一个数字所在的位置,如果不借助数据结构,就必须逐一核实(从位置1到位置10,一个个确认是不是要找的数字),而将数据用数据结构组织起来(二分查找法),...
2017-04-03
最新回答 / qalong
不仅是查询单个字段,涉及到函数,条件等数据处理、筛选的时候都会需要对数据进行过滤。只要涉及到了数据的过滤处理,都需要用MR来实现。select * from 可以认为是原样输出,所以不需要MR。MR任务需要编译、任务下发等一系列操作,所以速度会慢一些。
2017-03-17
已采纳回答 / Acerreca
这里混淆了两个概念:数据仓库的更新数据仓库中数据的更新数据仓库一定要更新的,因为不断的将OLTP产生的数据通过ETL导入数据仓库中。但是,已经导入数据仓库中的数据,是不会更新的,换句话说,一条数据进入了数据仓库,就不会再做任何改变。如果想要对已有的数据进行更改,只会产生新的数据,再次倒入数据仓库。这是因为,数据仓库是用来做决策分析的。过去的所有数据,都是代表了当时的状态,所以不可以有任何改变。就像历史一样,已经成为事实的东西,是不能改变的。
2017-02-24