-
查看全部
-
explain plan for select * from emp where deptno=10;
--查看该select的执行计划
select * from table(dbms_xplan.display);
查看全部 -
hive.apache.org
查看全部 -
hive没有索引(mysql有),hive的分区就相当于它的索引,目的是减少扫描范围,提高查询效率。
#没有分区的执行计划 explain select * from table where day='2019-12-08' #有分区的执行计划 explain select * from table_with_partition where day='2019-12-08'
查看全部 -
在hive里创建表,会自动在hdfs里创建文件夹。在hive里保存的文件夹中的数据对应于该文件夹下的文件。
user/hive/warehouse/
mysql是没有分区的。hive搞这么一大坨,什么hdfs啊,Hadoop啊,都是为了“大”数据服务的。你可以把hdfs想象成多个电脑联机的磁盘(mysql只是单机的),但因为有了“大”数据,因此一台电脑的磁盘不够用了,于是要搞出多个电脑联机来存放数据,于是hive数据库的数据就是被放在hdfs上的。hdfs的重点就在于d上(h是家族名,f是file,s是system),d是distributed,分布式(联机)。Hadoop是数据库引擎,用来把HQL翻译成map和reduce任务,然后执行得到结果。
查看全部 -
1、hive中的时间数据类型有哪两种?
时间戳timestamp:与时区无关(不同时区一样),表偏移量(相对于有了Unix以来)
日期型date:注意不含时点(区别于其他数据库)
查看全部 -
hive是数据仓库,数据仓库的本质就是数据库。数据库里面就是表,是表就有字段,字段就有其类型。数据类型有基础的、复杂的、时间的。
1、什么是hive中基础的数据类型?
整数型:tinyint\smallint\int\bigint(精度不同)
小数型:double\float
字符串:string
布尔型:bool
creat table table_name( uid bigint ,uname sting ,is_student boolean ,score double )
2、怎么查看表中字段的数据类型?
desc table
3、varchar 和char的区别?
varchar(20)是字符串不能超过多少位。
char(20)是字符串按照20位存储。
查看全部 -
1、在hue里输入一条HQL语句,它是如何在hive数据仓库里进行查询的?
step1:输入HQL查询语句
step2:解析器分析有没有语法错误,有的话就print出来(报错)
step3:语法没问题的话就进入编译器,生成执行计划
step4:然后优化器生成最佳的执行计划
step5:最后执行这个最佳执行计划,得到这条HQL的查询结果。
2、怎么知道自己写的HQL的执行计划是怎样的?
通过explain函数。explain+这条HQL语句=这条HQL语句的执行计划
例如:explain select 一张没有索引的表,那么它的执行计划是先全表扫描;explain select 一张有索引的表,那么它的执行计划是先扫描有索引;
查看全部 -
1、什么是hive的元数据?
元数据就是记录表本身的信息的数据。(表1:表的信息;表2:列的信息)
元数据也是要存储在数据库中的,默认存在Derby数据库中。
查看全部 -
1、什么是hive?
hive是构建在Hadoop hdfs上的数据仓库。对应的查询语言叫HQL,表是hdfs的目录或文件。
hive是HQL的解析引擎,把HQL转化成map和reduce的job,然后在Hadoop中执行。
查看全部 -
1、什么是数据仓库?
数据仓库是一种特殊的数据库:它的目的是服务于分析(因此主要是做查询的、数据是不可更新的、且通常是按照主题存储的)。
2、如何构建数据仓库?
首先把分散在各处的数据(例如业务数据库、txt/csv的文档、其他数据源)收集起来,然后通过ETL转化,转化成符合规范的数据格式,按照主题存到数据仓库里(例如商品推荐系统,使用星型模型或雪花模型搭建),再通过服务器和前端,最终实现不同功用的目的(例如hive-hue查询、BI看报表、数据接口)
查看全部 -
Hive体系结构
查看全部 -
解释器→编译器→优化器→查询计划生成→存储于HDFS→MapReduce调用执行
查看全部 -
Hive元数据存储在metastore(derby,mysql或oracle)中
Hive元数据包括:1.表名及属性 2.列名及属性 3.分区名及属性 4. 表的数据所在目录等
查看全部 -
传统数据仓库是建立在MySQL, Oracle等基础上的。而Hive是建立在HDFS上的。可以进行数据ETL即提取、转化、加载(Sqoop)。Hive的查询语言为HQL,HQL解析引擎将把查询语句翻译成M/R程序。
Hive允许MapReduce开发者开发自定义的mapper和reducer来完成复杂的分析工作。
Hive的表实际上就是HDFS的目录,而Hive中的数据就是HDFS中的文件。
查看全部
举报