为了账号安全,请及时绑定邮箱和手机立即绑定

Hive有哪些特点?

标签:
大数据

Hive是为了解决什么问题,Hive产生的背景,我们以这个为引子,展开回答。

1,MapReduce编程的不变性,如果要处理一些数据处理的任务,会有一定的门槛,并且操作起来不方便。
2,Hdfs上的文件缺少Schema。例如:缺少 字段名,数据类型等,不方面数据进行有效管理。
3,用于解决海量结构化数据的统计问题
4,如果使用MapReduce等计算框架,学习成本比较高
5,在项目周期比较短的情况下,如果使用mapReduce或者其它的开发框架进行开发,无法满足项目对时间的要求。

我们从具体应用场景下看看Hive处于hadoop生态系统的什么位置:

如图:Hive以Hdfs为基本的文件存储,以MapReduce为执行引擎。所以Hive天然就具备了Hdfs,MapReduce的特性。

webp

hive的位置

我们和传统数据库进行对比看看Hive有哪些优势和不足,当然这种不足是特定场景下的,也是Hive不擅长的领域。

hive的编写语法和传统的sql类似,核心的是hive有一套不同与sql的语法规则,最终被解释为mapReduce任务。hive只适合在海量数据下进行批量数据统计分析。

webp

hive和RDBMS对比

我们在来看看hive和mapReduce之间的关系,如图:

webp

hive和mapReduce的关系

在来看看hive的内部结构示意图

webp

hive的内部结构示意图

Driver组件:

SQL Parser:编译器,将HQL转换成抽象语法树。
Query Optimizer:查询优化器
Physical Plan,SerDes,Udfs:执行器
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS 中,并在随后有 MapReduce 调用执行。
Metastore组件:Hive将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等

webp

Hive处理命令的流程示意图

SQL Parser将SQL语句转换成抽象语法树--->生成逻辑执行计划---->查询优化----> 物理执行计划(SerDes序列化与反序列化,UDFs,执行引擎)

上面主要是从整体上介绍hive,已经hive相关的组件,最后总结下hive有哪些特点:

1,hive延迟高,适合高吞吐量,批量,海量数据处理。
2,语法和SQL相似,学习成本低,避免去写复杂的MapReduce,缩短开发周期。
3,Hive支持自由的扩展集群的规模,一般不需要重启服务。
4,Hive支持自定义函数,用户可以根据自己的需求去定义函数。
5,良好的容错性,节点出现问题,SQL仍然可以成功执行。
。。
整体上来说是继承了HDFS和MapReduce的特点。



作者:数据僧
链接:https://www.jianshu.com/p/d848ee7806ab


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
数据库工程师
手记
粉丝
42
获赞与收藏
203

关注作者,订阅最新文章

阅读免费教程

  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消