快速入门Hadoop3.0大数据处理_学习笔记

首页免费课快速入门Hadoop3.0大数据处理笔记

快速入门Hadoop3.0大数据处理

                
                徐老师
            
                    查看讲师更多课程 
                    徐老师讲师的其他课程
                
徐老师带你新一代分布式调度工具-DolphinScheduler
中级·1027
免费课程
                                
徐老师带你入门新一代流式数据湖新秀--Apache Paimon
中级·816
免费课程
                                
徐老师带你 2小时 Flink SQL快速上手
中级·915
免费课程
                                
《大数据开发2024》体验课
入门·1470
免费课程
                                
3小时开启大数据之门
慕课微课·初级·391

                                                                                                                                    ￥68.00
                                            
                难度初级
            
                时长 5小时30分
            
                学习人数
            
综合评分9.77
                            18人评价
                        查看评价
                                10.0
                                内容实用
                            
                                9.6
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

gongwanyi 07:57

5、在Map节点，框架可以执行reduce规约，此步骤为可选项。
6、框架会把map task输出的<k2.v2>写入到linux的磁盘文件中。

查看全部

0 采集收起来源：WordCount案例分析
2020-03-16
gongwanyi 07:30

5、在Map节点，框架可以执行reduce规约，此步骤为可选项。

查看全部

0 采集收起来源：WordCount案例分析
2020-03-16
gongwanyi 06:58

3、框架对map函数输出的<k2,v2>进行分区。不同分区中的<k2,v2>由不同的reduce task处理，默认只有一个分区。
4、框架对每个分区中的数据，按照k2进行排序、分组。分组，指的是相同的K2的V2分成一个组。

查看全部

0 采集收起来源：WordCount案例分析
2020-03-16
gongwanyi 06:11

MapReduce之map阶段执行过程
1、框架会把输入文件（夹）划分成很多InputSplit，默认，每个HDFS的block对应一个InputSplit。通过RecordReader类把每个InputSplit解析成一个个<k1,v1>。默认每行会被解析成一个<k1,v1>
2、框架调用Mapper类中的map(...)函数，map函数的形参是<k1,v1>，输出是<k2,v2>。一个InputSplit对应一个map task

查看全部

1 采集收起来源：WordCount案例分析
2020-03-16
gongwanyi 00:15

WordCount案列分析

查看全部

0 采集收起来源：WordCount案例分析
2020-03-16
gongwanyi 02:20

MapReduce原理分析

查看全部

0 采集收起来源：MapReduce原理分析
2020-03-16
gongwanyi 02:11

MapReduce概述
1、MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题
2、MapReduce是分布式运行的，由两个阶段组成：Map和Reduce
3、MapReduce框架都有默认实现，，用户只需要覆盖map()和reduce()两个函数，即可实现分布式计算，非常简单。

查看全部

1 采集收起来源：MapReduce原理分析
2020-03-16
gongwanyi 19:42

第二份关系：DataNode与Block的关系（当DataNode启动的时候，会把当前节点上的Block信息和节点信息上报给NameNode）

查看全部

0 采集收起来源：HDFS体系结构详解
2020-03-16
gongwanyi 19:06

NameNode总结
1、第一份关系：File与Block list的关系，对应的关系信息存储在fsimage和edits文件中（当NameNode启动的时候会把文件中的内容加载到内存中）

查看全部

0 采集收起来源：HDFS体系结构详解
2020-03-16
gongwanyi 18:22

DataNode介绍
1、提供真实文件数据的存储服务
2、HDFS会按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block，HDFS默认Block大小是128MB
3、HDFS中，如果一个文件小于一个数据块的大小，那么并不会占用整个数据块的存储空间。

查看全部

0 采集收起来源：HDFS体系结构详解
2020-03-16
gongwanyi 15:36

3、注意：在NameNode的HA的架构中是没有SecondaryNameNode进程的，这个文件合并操作是由standby NameNode负责实现的。

查看全部

0 采集收起来源：HDFS体系结构详解
2020-03-16
gongwanyi 15:02

SecondaryNameNode介绍
1、主要负责定期地把edits文件中的内容合并到fsimage中
2、这个合并操作称为checkpoint，在合并的时候会对edits中的内容进行转换，生成新的内容保存到fsimage文件中

查看全部

0 采集收起来源：HDFS体系结构详解
2020-03-16
gongwanyi 08:09

以上文件，即fsimage、edits、seed_txid，Version文件的保存的路径由hdfs-default.xml文件中的dfs.namenode.name.dir属性控制

查看全部

0 采集收起来源：HDFS体系结构详解
2020-03-15
gongwanyi 03:42

NameNode介绍
1、NameNode是整个文件系统的管理节点，它主要维护着整个文件系统的目录树，文件/目录的元信息，，每个文件对应的数据块列表，并且还负责接收用户的操作请求。
2、NameNode主要包含以下文件：fsimage,edits,seed_txid,VERSION

查看全部

0 采集收起来源：HDFS体系结构详解
2020-03-15
gongwanyi 01:24

HDFS的shell操作

查看全部

0 采集收起来源：HDFS的Shell操作
2020-03-15

首页上一页 13 14 15 16 17 18 19 下一页尾页

0/150

提交

取消

开始学习

课程须知: 学习中需要用到这些工具： —Linux —IDEA —Hadoop —MySQL —Sqoop —Echarts(图表展示) 你需要有这些基础： —熟悉Java语言和IDEA开发工具 —有一定的Linux基础和Shell编程基础 —有一定的MySQL基础

老师告诉你能学到什么？: 1、Hadoop3.0集群安装部署 2、Hadoop三大核心组件(HDFS+MapReduce+Yarn)的核心原理和使用 3、使用Hadoop进行海量数据存储和分析

微信扫码，参与3人拼团

热搜

最近搜索清空

快速入门Hadoop3.0大数据处理