首页猿问为什么要使用Hadoop?

为什么要使用Hadoop?

Hadoop

侃侃尔雅 2019-02-14 15:11:09

为什么要使用Hadoop

查看完整描述

2 回答

湖上湖

TA贡献2003条经验获得超2个赞

感觉现在各个公司使用Hadoop的方式都不一样，主要我觉得有两种吧。
第一种是long running cluster形式，比如Yahoo，不要小看这个好像已经没什么存在感的公司，Yahoo可是Hadoop的元老之一。这种就是建立一个Data Center，然后有几个上千Node的Hadoop Cluster一直在运行。比较早期进入Big Data领域的公司一般都在使用或者使用过这种方式。
另一种是只使用MapReduce类型。毕竟现在是Cloud时代，比如AWS的Elastic MapReduce。这种是把数据存在别的更便宜的地方，比如s3，自己的data center， sql database等等，需要分析数据的时候开启一个Hadoop Cluster，Hive/Pig/Spark/Presto/Java分析完了就关掉。不用自己做Admin的工作，方便简洁。
所以个人如果要学Hadoop的话我也建议第二种，AWS有免费试用时间（但是EMR并不免费，所以不要建了几千个Node一个月后发现破产了），可以在这上面学习。最重要的是你可以尝试各种不同的配置对于任务的影响，比如不同的版本，不同的container size，memory大小等等，这对于学习Spark非常有帮助。
总的来说Hadoop适合应用于大数据存储和大数据分析的应用，适合于服务器几千台到几万台的集群运行，支持PB级的存储容量。Hadoop典型应用有：搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。

反对回复 2019-03-02

2 回答
0 关注
1106 浏览

关注

添加回答

0/150

提交

取消

热搜

最近搜索清空

为什么要使用Hadoop?

为什么要使用Hadoop?

2 回答

添加回答