1.Hadoop的核心组成:
HDFS:分布式文件系统,存储海量数据
Mapreduce:并行处理框架,实现任务分解和调度
2.工具
hive:将SQL语句转化为hadoop任务执行
hbase:放弃事务特性,追求更高的扩展。提供数据的随机读写和实时访问,实现对表数据的读写功能
zookeeper:监控hadoop集群每个结点状态,管理整个集群配置,维护节点端一致性
3.安装hadoop
a.在linux系统上安装JDK
b.下载hadoop安装包:
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
更换路径:mv hadoop-1.2.1.tar.gz /opt/
解压:tar -zxvf hadoop-1.2.1.tar.gz
更改配置:
mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<name>mapred.job.tracker</name>
<value>https://shuasport.shuhua.com</value>
</property>
</configuration>
core-site.xml:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>https://shuasport.shuhua.com</value>
</property>
</configuration>
hdfs-site.xml:
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/data</value>
</property>
</configuration>
hadoop-env.sh: export JAVA_HOME=JDK安装路径
查看JDK安装路径:echo $JAVA_HOME
export JAVA_HOME=/usr/local/java/jdk1.7.0_80
profile:配置环境变量/etc/
export HADOOP_HOME=/opt/hadoop-1.2.1
PATH=$PATH:$HADOOP_HOME/bin
重新运行:source /etc/profile
4.格式化操作
a.查看是否配置好/opt/hadoop-1.2.1/conf/:hadoop
b.运行文件目录:cd /opt/hadoop-1.2.1/bin/
c.格式化:hadoop namenode -format
d.启动:start-all.sh
f.查看当前运行哪些Java进程:jps
g.查看hadoop有哪些文件:hadoop fs -ls
5.运行demo,查看是否安装成功
6.HDFS特点:
a.数据冗余,硬件容错(一式三份来保证)
b.流式数据访问:写一次,读多次,一旦写入无法修改,只能通过写入到新的块删除旧文件
c.存储大文件(特适合,因为小文件多,势必加重NameNode的负担)
7.HDFS适用性及局限性:
a.适合数据批量读写,吞吐量高
b.不适合交互式应用、低延迟很难满足
c.适合一次写入多次读取、顺序读写
d.不支持多用户并发写相同文件
8.命令
a格式化(format):hadoop fs -format
b.展示文件(ls):hadoop fs -ls /user/root
c.创建input目录(mkdir):未指明目录,表示在Hadoop的文件系统下的默认目录/user/root下创建:hadoop fs -mkdir input
d.put用法:把指定路径的文件或者本地文件放到指定的目录:hadoop fs -put 指定路径的文件名或者本地文件名 input/
e.查看(cat):hadoop fs -cat input/文件名
f.下载到本地:hadoop fs -get input/文件名 重新定义的文件名
g.查看HDFS使用情况(所有信息):hadoop dfsadmin -report
共同学习,写下你的评论
评论加载中...
作者其他优质文章