已采纳回答 / Acerreca
这里混淆了两个概念:数据仓库的更新数据仓库中数据的更新数据仓库一定要更新的,因为不断的将OLTP产生的数据通过ETL导入数据仓库中。但是,已经导入数据仓库中的数据,是不会更新的,换句话说,一条数据进入了数据仓库,就不会再做任何改变。如果想要对已有的数据进行更改,只会产生新的数据,再次倒入数据仓库。这是因为,数据仓库是用来做决策分析的。过去的所有数据,都是代表了当时的状态,所以不可以有任何改变。就像历史一样,已经成为事实的东西,是不能改变的。
2017-02-24
已采纳回答 / Hadoop_hive
如果做大数据的话,应该先学Linux操作系统,再学Java,把Hadoop体系放到最后,你不学Linux你就不懂操作命令,不学Java就看不懂MR;
2016-11-12
已采纳回答 / 陆克乾
每个桶里可以放很多数据的。哈希值只是分桶的依据罢了,目的是为了平均放在每个桶里。假如有26个桶,按照name的首字母放入各个桶里,这也算一种方法。但是有些比如A开头的就比较少,S的可能就很多。如果使用一些Hash算法(比如MD5(tom)=34b7da764b21d298ef307d04d8152dc5),都变成一样长度的字符,这样0到F十六种字符开头的概率是一样的,分16个桶基本平均分配了,分2、4、6、8个桶也很简单。实际中可以有很多种Hash算法,和分桶算法(一般按照Hash的二进制分)。
2016-10-03
已采纳回答 / nullundefine
我的是字符集有问题(message:For direct MetaStore DB connections, we don't support retries at the client level,改为alter database hive character set latin1
2016-06-26