为了账号安全,请及时绑定邮箱和手机立即绑定
影响MapReduce的主要因素有以下几个:
硬件(或者资源)因素,如CPU时钟、磁盘I/O、网络带宽和内存大小。
底层存储系统。
输入数据、分拣(shuffle)数据以及输出数据的大小,这与作业的运行时间紧密相关。
作业算法(或者程序),如map、reduce、partition、combine和compress。有些算法很难在MapReduce中概念化,或者在MapReduce中效率可能会降低。
看来得自学python的知识了
python没有接触过
问题 namenode挂掉怎么办?
重启namenode1。集群短暂正常之后两个namenode都挂掉,日志显示内存溢出。进一步重启整个集群,短暂正常后namenode再次挂掉。
此时,修改hadoop_heapsize参数为4G,并调小队列3所允许的最大队列数为4,重新修改hadoop_heapsize参数,重启集群正常

最赞回答 / 丞旭猿
因为namenode需要及时更新存储信息,方便记录存储各个datanode存储大小信息

讲师回答 / 叁金
上面不是有个链接了  看看有没有详细点的信息。
感谢老师分享!!!

Apache Spark 是一款开源的、基于内存的、专为大规模数据处理而设计的分布式计算框架,可作为 MapReduce 的替代方案,同时也很好地兼容其他大数据组件。

Spark 仅仅是一个分布式计算框架,专注于数据的计算,类似 MapReduce、Storm、Flink。Spark 不包含存储、调度等功能,而数据的存储在生产环境中往往还是由 Hadoop HDFS 承担,调度也是采用“Spark on YARN”的方式。

Spark 抽象出一个非常重要的概念:RDD(Resilient Distributed Datasets,弹性分布式数据集)
老师有篇手记讲了这个的:
我们为什么需要HBase?:https://www.imooc.com/article/26090
HBase(Hadoop Database)是一个分布式 NoSQL 列存储数据库。HBase 利用 HDFS 作为其文件存储系统,利用 Hadoop MapReduce 处理海量数据,还可以利用 Zookeeper 作为协同服务。HBase 源自 Google 在 2006 年发表的 BigTable 论文,它整体的架构与 BigTable 很类似。
Hadoop 生态圈囊括了大数据处理的方方面面,其中的大多数组件都是开源免费的。组件都有自己的适用场景,如:HBase 做查询,Hive 做 SQL 离线批处理,Flume 做日志收集,Sqoop 做数据交换等。
学习目标:学习Hadoop生态圈的组成、核心组件,以及每个组件的应用场景,它们的优缺点和特性
建议学习路线:Hadoop 体系架构与环境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper(HA) -> Storm ----> Spark
运用 HDFS shell 的方式对文件进行操作,HDFS shell 类似 Linux shell。

hadoop fs [generic options]与hdfs dfs [generic options]是一个命令
文件写入:

1. Client向NameNode发起文件写入的请求
2. NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息
3. Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

文件读取:

1. Client向NameNode发起文件读取的请求。
2. NameNode返回文件存储的DataNode的信息。
3. Client读取文件信息。
【百度百科定义】:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

【通俗定义】:大数据是一个概念也是一门技术,它是以 Hadoop 和 Spark 为代表的大型软件平台,我们可以在这个软件平台上进行大规模数据的分析和处理。数据处理可分为两类:离线批处理(Hadoop 为代表)、实时流处理(Spark 为代表)。

已采纳回答 / 慕圣7118117
2.0版本是有两个namenode的,一个是主节点,一个是备用的,主节点挂了,就激活备用的

已采纳回答 / qq_兵刃_04412779
块的大小设置原则:最小化寻址开小。 块越大寻址时间越短, 传输一个由多个块的组成的文件取决于磁盘传输速率。如寻址时间约为10ms,传输速率为100MB/S,为了使寻址时间仅占传输时间的1%,块的大小设置约为100MB,默认大小是64MB,现在在实际身缠中都是128MB了,随着新一代磁盘去东区传输速率的提升,块的大小将会被设置的更大。注意:块的大小太大的话,一个map任务处理一个块,那任务数就变少了,作业运行速度也就变慢了。
课程须知
有Linux命令使用基础,有Python编程基础
老师告诉你能学到什么?
大数据到底是个啥,大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消