Hadoop基础及演练_学习笔记

首页免费课 Hadoop基础及演练笔记

Hadoop基础及演练

                
                叁金
            JAVA开发工程师

                    查看讲师更多课程 
                    叁金讲师的其他课程
                
玩转热门框架 用企业级思维 开发通用够硬的大数据平台
实战·中级·485

                                                                                                                                    ￥448.00
                                            
多层次构建企业级大数据平台， 成就全能型大数据开发
实战·高级·152

                                                                                                                                    ￥599.00
                                            
ChatGPT入门实战课 AI提效大数据开发平台建设
实战·初级·260

                                                                                                                                    ￥168.00
                                            
Calcite数据管理与SQL优化实战
初级·1304
免费课程
                                
Presto实战与演练
中级·3894
免费课程
                                
                难度初级
            
                时长 1小时 6分
            
                学习人数
            
综合评分9.30
                            51人评价
                        查看评价
                                9.4
                                内容实用
                            
                                9.1
                                简洁易懂
                            
                                9.4
                                逻辑清晰

最热最新

君月

HDFS由一个NameNode和多个DataNode组成。
NameNode作用：
1、管理文件系统的命名空间，存放文件元数据。
2、维护着文件系统的所有文件和目录，文件与数据块的映射。
3、记录每个文件中各个块所在数据节点的信息。
DataNode是文件系统的工作节点，作用：
1、存储并检索数据块。
2、向NameNode更新所存储块的列表

查看全部

0 采集收起来源：HDFS概念及优缺点
2019-02-12
Mr_黄黄 01:31

Spark简介：
1、基于内存计算的大数据并行计算框架
2、Spark是Map Reduce的替代方案，兼容HDFS，HIVE等数据源

查看全部

0 采集收起来源：Spark简介
2019-02-11
Mr_黄黄 01:16

HBase简介：
RowKey：数据唯一标识，按字典排序，主键
ColumnFamily：列族，多个列的集合，最多不要超过3个

查看全部

0 采集收起来源：HBase简介
2019-02-10
Mr_黄黄 00:50

HBase简介：
高可靠，高性能，面向列，可伸缩，实时读写的分布式数据库
利用HDFS作为其文件存储系统，支持MR程序读取数据
存储非结构化和半结构化数据

查看全部

0 采集收起来源：HBase简介
2019-02-10
Mr_黄黄 04:19

Map Reduce编程模型：
输入一个大文件，通过Split之后，将其分为多个分片
每个文件分片由单独的机器去处理，这就是Map方法
将各个机器计算的结果进行汇总并得到最终的结果，这就是Reduce方法

查看全部

0 采集收起来源：Mapreduce和Yarn简介
2019-02-09
Mr_黄黄

YARN是Hadoop2.0以后的资源管理器，负责整个集群的资源的管理和调度，所有的Map Reduce程序都需要通过它来进行调度。
YARN概念：
Resource Manager
分配和调度资源
启动并监控Application Master
监控Node Manager
Application Master
为MR类型的程序申请资源，并分配给内部任务
负责数据的切分
监控任务的执行及容错
Node Manager
管理单个节点的资源
处理来自Resource Manager的命令
处理来自Application Master的命令

查看全部

0 采集收起来源：Mapreduce和Yarn简介
2019-02-11
Mr_黄黄 00:54

Hadoop两大核心：
1、HDFS分布式文件系统：存储是大数据技术的基础
2、Map Reduce编程模型：分布式计算是大数据应用的解决方案

查看全部

0 采集收起来源：HDFS概念及优缺点
2019-02-09
Mr_黄黄 06:19

HDHS读流程：
1、客户端向Name Node发起读数据请求
2、Name Node找出距离最近的Data Node 节点信息
3、客户端从Data Node分块下载文件

查看全部

0 采集收起来源：HDFS写流程和读流程
2019-02-08
Mr_黄黄 04:43

HDFS写流程：
1、客户端向Name Node发起写数据请求
2、分块写入Data Node节点，Data Node自动完成副本备份
3、Data Node向Name Node汇报存储完成，Name Node通知客户端

查看全部

0 采集收起来源：HDFS写流程和读流程
2019-02-08
Mr_黄黄

所有文件的访问都要通过Name Node来进行，所以Name Node至关重要
Name Node容错机制：
1、第一种方法是把文件元数据写入NFS，备份在另一台机器上。备份操作是同步的原子的
2、第二种方法是运行辅助的Name Node，不过这个Name Node不提供服务，它只是把操作日志Merge到Metadata中，但是如果主Name Node失效，总有一部分数据来不及Merge，会造成数据丢失。所以一般的做法是把NFS中备份的数据拷贝到这个Name Node，并作为主Name Node运行。

查看全部

0 采集收起来源：HDFS概念及优缺点
2019-02-08
Mr_黄黄

HDFS数据块大小一般设置为64MB或者128MB。
不能远小于64MB：
1、减少硬盘寻道时间
2、减少Name Node内存消耗。Name Node记录着Data Node中的数据块信息，若数据块太小，数据块数量就会过多，需要维护的数据块信息就会增多，从而消耗Name Node的内存
也不能远大于64MB：（主要原因从Map Reduce框架来说明）
1、Map崩溃，系统需要重启，重启需要重新加载数据块，数据块越大，加载时间越长，系统恢复过程越长
2、监管时间问题，主节点会在一个预设的时间间隔内监管其他节点的情况，每个节点会周期性的与主节点进行汇报通信，超过预设时间主节点会记录该节点死亡，并将该节点的数据转发给别的节点。数据块越大，预设时间估算越不精准，容易对系统造成不必要的损失和资源浪费
3、问题分解问题，同一个算法里，数据块越大，时间复杂度越高
4、约束Map输出。在Map Reduce框架里，Map之后的数据要经过排序才执行Reduce操作，这通常涉及到归并排序，归并排序算法思想是“对小文件进行排序，然后将小文件归并成大文件”

查看全部

0 采集收起来源：HDFS概念及优缺点
2019-02-08
慕UI3587532

YARN，Hadoop2.0之后的资源管理器，
ResourceManager, 分配和调度资源，启动并监控ApplicationMaster，监控NodeManager
ApplicationMaster
NodeManager

查看全部

0 采集收起来源：Mapreduce和Yarn简介
2019-01-20
慕UI3587532
1.查看hdfs的帮助信息
```
hdfs dfs -help
```
2.查看hdfs文件系统根目录下的所有目录与文件
```
hdfs dfs -ls /
```
3.将文件从本地复制到hdfs文件系统中
```
hdfs dfs -copyFromLocal / +路径
```
4.将文件从hdfs文件系统中下载到本地虚拟机
```
hdfs dfs -copyToLocal / +路径
```
查看全部

0 采集收起来源：Shell命令操作HDFS
2019-01-20
likeflower950 01:28

常用HDFS Shell命令

查看全部

0 采集收起来源：Shell命令操作HDFS
2019-01-16
weibo_向文卓L_0

RowKey:数据唯一标识，按字典排序
Column Family:列族，多个列的集合。最多不要超过3个

查看全部

0 采集收起来源：HBase简介
2019-01-15

首页上一页 10 11 12 13 14 15 16 下一页尾页

0/150

提交

取消

开始学习

课程须知: 有Linux命令使用基础，有Python编程基础

老师告诉你能学到什么？: 大数据到底是个啥，大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码，参与3人拼团

热搜

最近搜索清空

Hadoop基础及演练