对于小文件问题,Hadoop本身也提供了几个解决方案,分别为:Hadoop Archive,Sequence file和CombineFileInputFormat
2018-07-09
影响MapReduce的主要因素有以下几个:
硬件(或者资源)因素,如CPU时钟、磁盘I/O、网络带宽和内存大小。
底层存储系统。
输入数据、分拣(shuffle)数据以及输出数据的大小,这与作业的运行时间紧密相关。
作业算法(或者程序),如map、reduce、partition、combine和compress。有些算法很难在MapReduce中概念化,或者在MapReduce中效率可能会降低。
硬件(或者资源)因素,如CPU时钟、磁盘I/O、网络带宽和内存大小。
底层存储系统。
输入数据、分拣(shuffle)数据以及输出数据的大小,这与作业的运行时间紧密相关。
作业算法(或者程序),如map、reduce、partition、combine和compress。有些算法很难在MapReduce中概念化,或者在MapReduce中效率可能会降低。
2018-07-09
问题 namenode挂掉怎么办?
重启namenode1。集群短暂正常之后两个namenode都挂掉,日志显示内存溢出。进一步重启整个集群,短暂正常后namenode再次挂掉。
此时,修改hadoop_heapsize参数为4G,并调小队列3所允许的最大队列数为4,重新修改hadoop_heapsize参数,重启集群正常
重启namenode1。集群短暂正常之后两个namenode都挂掉,日志显示内存溢出。进一步重启整个集群,短暂正常后namenode再次挂掉。
此时,修改hadoop_heapsize参数为4G,并调小队列3所允许的最大队列数为4,重新修改hadoop_heapsize参数,重启集群正常
2018-07-08
感谢老师分享!!!
Apache Spark 是一款开源的、基于内存的、专为大规模数据处理而设计的分布式计算框架,可作为 MapReduce 的替代方案,同时也很好地兼容其他大数据组件。
Spark 仅仅是一个分布式计算框架,专注于数据的计算,类似 MapReduce、Storm、Flink。Spark 不包含存储、调度等功能,而数据的存储在生产环境中往往还是由 Hadoop HDFS 承担,调度也是采用“Spark on YARN”的方式。
Spark 抽象出一个非常重要的概念:RDD(Resilient Distributed Datasets,弹性分布式数据集)
Apache Spark 是一款开源的、基于内存的、专为大规模数据处理而设计的分布式计算框架,可作为 MapReduce 的替代方案,同时也很好地兼容其他大数据组件。
Spark 仅仅是一个分布式计算框架,专注于数据的计算,类似 MapReduce、Storm、Flink。Spark 不包含存储、调度等功能,而数据的存储在生产环境中往往还是由 Hadoop HDFS 承担,调度也是采用“Spark on YARN”的方式。
Spark 抽象出一个非常重要的概念:RDD(Resilient Distributed Datasets,弹性分布式数据集)
2018-06-11
HBase(Hadoop Database)是一个分布式 NoSQL 列存储数据库。HBase 利用 HDFS 作为其文件存储系统,利用 Hadoop MapReduce 处理海量数据,还可以利用 Zookeeper 作为协同服务。HBase 源自 Google 在 2006 年发表的 BigTable 论文,它整体的架构与 BigTable 很类似。
2018-06-11
Hadoop 生态圈囊括了大数据处理的方方面面,其中的大多数组件都是开源免费的。组件都有自己的适用场景,如:HBase 做查询,Hive 做 SQL 离线批处理,Flume 做日志收集,Sqoop 做数据交换等。
学习目标:学习Hadoop生态圈的组成、核心组件,以及每个组件的应用场景,它们的优缺点和特性
建议学习路线:Hadoop 体系架构与环境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper(HA) -> Storm ----> Spark
学习目标:学习Hadoop生态圈的组成、核心组件,以及每个组件的应用场景,它们的优缺点和特性
建议学习路线:Hadoop 体系架构与环境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper(HA) -> Storm ----> Spark
2018-06-11