本文旨在提供最基本的,可以用于在生產環(huán)境進行Hadoop、HDFS分布式環(huán)境的搭建,對自己是個總結和整理,也能方便新人學習使用。
一、基礎環(huán)境
在Linux上安裝Hadoop之前,需要先安裝兩個程序:
1.1 安裝說明
1. JDK 1.6或更高版本(本文所提到的安裝的是jdk1.7);
2. SSH(安全外殼協(xié)議),推薦安裝OpenSSH。
下面簡述一下安裝這兩個程序的原因:
1. Hadoop是用Java開發(fā)的,Hadoop的編譯及MapReduce的運行都需要使用JDK。
2. Hadoop需要通過SSH來啟動salve列表中各臺主機的守護進程,因此SSH也是必須安裝的,即使是安裝偽分布式版本(因為Hadoop并沒有區(qū)分集群式和偽分布式)。對于偽分布式,Hadoop會采用與集群相同的處理方式,即依次序啟動文件conf/slaves中記載的主機上的進程,只不過偽分布式中salve為localhost(即為自身),所以對于偽分布式Hadoop,SSH一樣是必須的。
1.1 JDK的安裝與配置
1、上傳壓縮包
我這里使用的是WinScp工具 上傳jdk-7u76-linux-x64.tar.gz壓縮包
2、解壓壓縮包
tar -zxvf jdk-7u76-linux-x64.tar.gz
3、將解壓的目錄移動到/usr/local目錄下
mv /lutong/jdk1.7.0_76/ /usr/local/
4、配置環(huán)境變量
vim /etc/profile
5、重新加載/etc/profile,使配置生效
source /etc/profile
6、查看配置是否生效
echo $PATH
java -version
出現(xiàn)如上信息表示已經配置好了。
二、Host配置
由于我搭建Hadoop集群包含三臺機器,所以需要修改調整各臺機器的hosts文件配置,進入/etc/hosts,配置主機名和ip的映射,命令如下:
vim /etc/hosts
如果沒有足夠的權限,可以切換用戶為root。
三臺機器的內容統(tǒng)一增加以下host配置:
可以通過hostname來修改服務器名稱為master、slave1、slave2
hostname master
三、Hadoop的安裝與配置
3.1 創(chuàng)建文件目錄
為了便于管理,給Master的hdfs的NameNode、DataNode及臨時文件,在用戶目錄下創(chuàng)建目錄:
/data/hdfs/name
/data/hdfs/data
/data/hdfs/tmp
然后將這些目錄通過scp命