(1)获取Hadoop安装路径
[hll@hadoop01 hadoop-3.1.3]$ pwd
/opt/module/hadoop-3.1.3
(2)打开/etc/profile.d/my_env.sh文件
[hll@hadoop01 hadoop-3.1.3]$ sudo vim /etc/profile.d/my_env.sh
?在my_env.sh文件末尾添加如下内容:(shift+g)
#HADOOP_HOMEexport HADOOP_HOME=/opt/module/hadoop-3.1.3export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin
(3)让修改后的文件生效
[hll@hadoop01 hadoop-3.1.3]$ source /etc/profile
(4)测试是否安装成功
[hll@hadoop01 hadoop-3.1.3]$ hadoop version
Hadoop 3.1.3
(5)重启(如果Hadoop命令不能用再重启虚拟机)
[hll@hadoop01 hadoop-3.1.3]$ sudo reboot
4 Hadoop目录结构1)查看Hadoop目录结构
[haoll@hadoop01hadoop-3.1.3]$ ll 总用量 52drwxr-xr-x. 2 haoll haoll4096 5月22 2017 bindrwxr-xr-x. 3 haoll haoll4096 5月22 2017 etcdrwxr-xr-x. 2 haoll haoll4096 5月22 2017 includedrwxr-xr-x. 3 haoll haoll4096 5月22 2017 libdrwxr-xr-x. 2 haoll haoll4096 5月22 2017 libexec-rw-r--r--. 1 haoll haoll 15429 5月22 2017 LICENSE.txt-rw-r--r--. 1 haoll haoll101 5月22 2017 NOTICE.txt-rw-r--r--. 1 haoll haoll1366 5月22 2017 README.txtdrwxr-xr-x. 2 haoll haoll4096 5月22 2017 sbindrwxr-xr-x. 4 haoll haoll4096 5月22 2017 share
2)重要目录
(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
(4)sbin目录:存放启动或停止Hadoop相关服务的脚本
(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例
5 Hadoop运行模式
1)Hadoop官方网站:http://hadoop.apache.org/
2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式 。
本地模式:单机运行,只是用来演示一下官方案例 。生产环境不用 。
伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境 。个别缺钱的公司用来测试,生产环境不用 。
完全分布式模式:多台服务器组成分布式环境 。生产环境使用 。
5.1 本地运行模式(官方wordCount)1)创建在hadoop-3.1.3文件下面创建一个wcinput文件夹[haoll@hadoop01hadoop-3.1.3]$ mkdir wcinput 2)在wcinput文件下创建一个word.txt文件[haoll@hadoop01hadoop-3.1.3]$ cd wcinput 3)编辑word.txt文件[haoll@hadoop01wcinput]$ vim word.txt 在文件中输入如下内容hadoop yarnhadoop mapreducehaollhaoll4)回到Hadoop目录/opt/module/hadoop-3.1.35)执行程序[haoll@hadoop01hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput 6)查看结果[haoll@hadoop01hadoop-3.1.3]$ cat wcoutput/part-r-00000 看到如下结果:haoll 2hadoop2mapreduce1yarn1
5.2 完全分布式运行模式(开发重点)前提:
1)准备3台客户机(关闭防火墙、静态IP、主机名称)
2)安装JDK
3)配置环境变量
4)安装Hadoop
5)配置环境变量
6)配置集群
7)单点启动
8)配置ssh
9)群起并测试集群
3.2.1 虚拟机准备
详见前面章节 。
编写集群分发脚本xsync1)scp(secure copy)安全拷贝
(1)scp定义
scp可以实现服务器与服务器之间的数据拷贝 。(from server1 to server2)
(2)基本语法
scp-r$pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
(3)案例实操
前提:在hadoop01、hadoop02、hadoop03都已经创建好的/opt/module、 /opt/software两个目录,并且已经把这两个目录修改为hll:hll
[hll@hadoop01 ~]$ sudo chown hll:hll -R /opt/module
(a)在hadoop01上,将hadoop01中/opt/module/jdk1.8.0_212目录拷贝到hadoop02上 。
[hll@hadoop01 ~]$ scp -r /opt/module/jdk1.8.0_212 hll@hadoop02:/opt/module
(b)在hadoop02上,将hadoop01中/opt/module/hadoop-3.1.3目录拷贝到hadoop02上 。
[hll@hadoop02 ~]$ scp -r hll@
hadoop01:/opt/module/hadoop-3.1.3 /opt/module/
(c)在hadoop02上操作,将hadoop01中/opt/module目录下所有目录拷贝到hadoop03上 。
[hll@hadoop02 opt]$ scp -r hll@hadoop01:/opt/module/* hll@hadoop03:/opt/module
2)rsync远程同步工具
rsync主要用于备份和镜像 。具有速度快、避免复制相同内容和支持符号链接的优点 。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新 。scp是把所有文件都复制过去 。
(1)基本语法
rsync-av $pdir/$fname$user@$host:$pdir/$fname
推荐阅读
- 金心吊兰适合放什么环境下养
- MySQL运行时的可观测性
- 生态环境问题有哪些 全球性生态环境问题有哪些
- harbor等 k8s 使用 containerd 运行时配置 http 私服
- 构建C语言开发环境
- SSH免密钥登录
- 大学生找工作越来越难,是因为好高慕远还是大环境所致?
- 什么是VRRP
- 保护环境的方法有哪些简短 保护环境的方法有哪些?
- 塑料袋对环境的危害有哪些 塑料袋对环境的危害