首页手记 Hadoop视频笔记知识点

Hadoop视频笔记知识点

标签：

MySQL

1.Hadoop的核心组成：
HDFS:分布式文件系统，存储海量数据
Mapreduce：并行处理框架，实现任务分解和调度
2.工具
hive：将SQL语句转化为hadoop任务执行
hbase：放弃事务特性，追求更高的扩展。提供数据的随机读写和实时访问，实现对表数据的读写功能
zookeeper：监控hadoop集群每个结点状态，管理整个集群配置，维护节点端一致性
3.安装hadoop
a.在linux系统上安装JDK
b.下载hadoop安装包：
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
更换路径：mv hadoop-1.2.1.tar.gz /opt/
解压：tar -zxvf hadoop-1.2.1.tar.gz
更改配置：
mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<name>mapred.job.tracker</name>
<value>https://shuasport.shuhua.com</value>
</property>
</configuration>
core-site.xml:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>https://shuasport.shuhua.com</value>
</property>
</configuration>
hdfs-site.xml:
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/data</value>
</property>
</configuration>

hadoop-env.sh: export JAVA_HOME=JDK安装路径
    查看JDK安装路径：echo $JAVA_HOME
    export JAVA_HOME=/usr/local/java/jdk1.7.0_80
profile:配置环境变量/etc/
    export HADOOP_HOME=/opt/hadoop-1.2.1
    PATH=$PATH:$HADOOP_HOME/bin
    重新运行：source /etc/profile

4.格式化操作
a.查看是否配置好/opt/hadoop-1.2.1/conf/：hadoop
b.运行文件目录：cd /opt/hadoop-1.2.1/bin/
c.格式化：hadoop namenode -format
d.启动：start-all.sh
f.查看当前运行哪些Java进程：jps
g.查看hadoop有哪些文件：hadoop fs -ls
5.运行demo，查看是否安装成功
6.HDFS特点：
a.数据冗余，硬件容错（一式三份来保证）
b.流式数据访问：写一次，读多次，一旦写入无法修改，只能通过写入到新的块删除旧文件
c.存储大文件（特适合，因为小文件多，势必加重NameNode的负担）
7.HDFS适用性及局限性：
a.适合数据批量读写，吞吐量高
b.不适合交互式应用、低延迟很难满足
c.适合一次写入多次读取、顺序读写
d.不支持多用户并发写相同文件
8.命令
a格式化（format）：hadoop fs -format
b.展示文件（ls）：hadoop fs -ls /user/root
c.创建input目录（mkdir）：未指明目录，表示在Hadoop的文件系统下的默认目录/user/root下创建：hadoop fs -mkdir input
d.put用法:把指定路径的文件或者本地文件放到指定的目录：hadoop fs -put 指定路径的文件名或者本地文件名 input/
e.查看（cat）：hadoop fs -cat input/文件名
f.下载到本地：hadoop fs -get input/文件名重新定义的文件名
g.查看HDFS使用情况（所有信息）：hadoop dfsadmin -report