心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: Note/Solution - 浅尝转置原理 &... 下一篇:ubuntu 编译报错 configure: err...

Ubuntu Hadoop集群安装与使用

发布时间：2022-06-27 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Ubuntu Hadoop集群安装与使用，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

参考资料

主要参考：Hadoop集群安装配置教程_Hadoop2.6.0_ubuntu/CentOS Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/ubuntu14.04(16.04) Ubuntu下 hadoop的安装与配置主要参考：ubuntu14.04搭建Hadoop2.9.0集群(分布式)环境 apache Hadoop 分布式集群环境安装配置详细步骤

实验环境

两个虚拟机Ubuntu Hadoop Java SSH

主要步骤

选定一台机器作为 Master 在 Master 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境在 Master 节点上安装 Hadoop，并完成配置在其他 Slave 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境将 Master 节点上的 /usr/local/hadoop 目录复制到其他 Slave 节点上在 Master 节点上开启 Hadoop

准备步骤

配置 hadoop 用户

sudo useradd -m hadoop -s /bin/bash  #创建hadoop用户，并使用/bin/bash作为shell
sudo passwd hadoop                   #为hadoop用户设置密码，之后需要连续输入两次密码
sudo adduser hadoop sudo             #为hadoop用户增加管理员权限
su - hadoop                          #切换当前用户为用户hadoop
sudo apt-get update                  #更新hadoop用户的apt,方便后面的安装

Ubuntu Hadoop集群安装与使用

安装SSH server

sudo apt-get install oPEnssh-server   #安装SSH server
ssh localhost                         #登陆SSH，第一次登陆输入yes
exIT                                  #退出登录的ssh localhost
cd ~/.ssh/                            #如果没法进入该目录，执行一次ssh localhost
ssh-keygen -t rsa

Ubuntu Hadoop集群安装与使用

安装Java环境

第一种方式，手动安装第二种方式

sudo apt-get install openjdk-8-jdk  # 安装
vim ~/.bashrc # 配置环境变量
在文件最前面添加代码
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
保存并退出
source ~/.bashrc # 使配置生效
用 java -version 查看是否安装成功

Ubuntu Hadoop集群安装与使用

下载错了的删除指令sudo apt-get remove openjdk*

安装Hadoop

cd /usr/local/
sudo wget https://mirrors.CNNIC.cn/apache/hadoop/common/stable2/hadoop-2.10.1.tar.gz
sudo tar -xvf hadoop-2.10.1.tar.gz
sudo mv ./hadoop-2.10.1/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

cd /usr/local/hadoop
./bin/hadoop version   # 如果成功会显示hadooP版本号

Ubuntu Hadoop集群安装与使用

给hadoop配置环境变量，将下面代码添加到.bashrc文件:

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

Ubuntu Hadoop集群安装与使用

使配置生效source ~/.bashrc 检查是否安装成功

Ubuntu Hadoop集群安装与使用

在另一台虚拟机上也同样进行上面四步

搭建Hadoop集群环境

两台虚拟机相互ping通

https://blog.csdn.net/sinat_41880528/article/details/80259590 配置两台虚拟机设置桥接模式关闭防火墙 sudo ufw disable 两台虚拟机分别设置自动获取ip地址

vim /etc/network/interfaces
添加代码
source /etc/network/interfaces.d/*

auto lo
iface lo inet loopback

auto eth0
iface eth0 inet dhcp

ifconfig查看ip地址重启，互相ping一下在虚拟机上打开ssh，两台虚拟机都要打开22端口，用exit可以退出ssh

sudo apt-get install openssh-server
sudo apt-get install ufw
sudo ufw enable
sudo ufw allow 22

Ubuntu Hadoop集群安装与使用

在Master结点上完成准备工作

修改主机名 sudo vim /etc/hostname 修改所有结点名称和IP地址的映射 sudo vim /etc/hosts

Ubuntu Hadoop集群安装与使用

修改完需要重启在所有节点上，都要进行这些修改下面操作需要分在Master上操作，或者是在Worker1上操作。

在每个结点上进行ping操作

在Worker1上ping Master

Ubuntu Hadoop集群安装与使用

在Master上ping Worker1

Ubuntu Hadoop集群安装与使用

SSH无密码登录结点（Master）

使Master结点可以无密码登录到各个Worker节点上在Master结点终端执行

cd ~/.ssh               # 如果没有该目录，先执行一次ssh localhost
rm ./id_rsa*            # 删除之前生成的公匙（如果有）
ssh-keygen -t rsa       # 一直按回车就可以

让Master无密码SSH登录本机 cat ./id_rsa.pub >> ./authorized_keys

Ubuntu Hadoop集群安装与使用

完成后可执行 ssh Master 验证一下（可能需要输入 yes，成功后执行 exit 返回原来的终端）。接着在 Master 节点将上公匙传输到 Slave1 节点： scp ~/.ssh/id_rsa.pub hadoop@Worker1:/home/hadoop/

Ubuntu Hadoop集群安装与使用

在Worker1结点上，将ssh公钥加入授权

mkdir ~/.ssh       # 如果不存在该文件夹需先创建，若已存在则忽略
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub    # 用完就可以删掉了

在Master结点上进行检验，是否可以无密码登录

Ubuntu Hadoop集群安装与使用

Master结点分布式环境

集群/分布式模式需要修改 /usr/local/hadoop/etc/hadoop 中的5个配置文件，更多设置项可点击查看官方说明，这里仅设置了正常启动所必须的设置项： slaves、core-site.XMl、hDFs-site.xML、mapred-site.xml、yarn-site.xml 。配置文件在目录/usr/local/hadoop/etc/hadoop/下

cd /usr/local/hadoop/etc/hadoop/
vim slaves

Ubuntu Hadoop集群安装与使用

配置core-site.xml文件

<configuration>
        <PRoperty>
                <name>fs.defaultFS</name>
                <value>hdfs://Master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
        </property>
</configuration>

Ubuntu Hadoop集群安装与使用

配置hdfs-site.xml文件，dfs.replication 一般设为 3，但我们只有一个 Slave 节点，所以 dfs.replication 的值还是设为 1

<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>;master:50090</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

Ubuntu Hadoop集群安装与使用

配置mapred-site.xml文件，（可能需要先重命名，默认文件名为 mapred-site.xml.template），然后配置修改如下：重命名 mv mapred-site.xml.template mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>Master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>Master:19888</value>
        </property>
</configuration>

Ubuntu Hadoop集群安装与使用

配置yarn-site.xml文件

<configuration>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>Master</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

Ubuntu Hadoop集群安装与使用

配置好后，将 Master 上的 /usr/local/Hadoop 文件夹复制到各个节点上。在 Master 节点上执行

cd /usr/local
sudo rm -r ./hadoop/tmp     # 删除 Hadoop 临时文件，没有这个文件就不用操作
sudo rm -r ./hadoop/LOGs/*   # 删除日志文件，没有这个文件就不用操作
tar -zCF ~/hadoop.master.tar.gz ./hadoop   # 先压缩再复制
cd ~
scp ./hadoop.master.tar.gz Worker1:/home/hadoop  # 如果有其他结点，也传到其他节点上
rm ~/hadoop.master.tar.gz # 删除压缩文件

Ubuntu Hadoop集群安装与使用

在Worker1结点上操作

sudo rm -r /usr/local/hadoop    # 删掉旧的（如果存在）
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/hadoop
rm ~/hadoop.master.tar.gz  # 删除压缩包

Ubuntu Hadoop集群安装与使用

启动Hadoop

在Master结点上执行首次启动需要先在 Master 节点执行 NameNode 的格式化：hdfs namenode -format

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

Ubuntu Hadoop集群安装与使用

通过命令 jps 可以查看各个节点所启动的进程。正确的话，在 Master 节点上可以看到 NameNode、ResourceManager、SecondrryNameNode、JobHistoryServer 进程，如下图所示：

Ubuntu Hadoop集群安装与使用

Worker结点在 Worker节点可以看到 DataNode 和 NodeManager 进程，如下图所示：
关闭 Hadoop集群也是在 Master节点上执行的

stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

运行单词计数例程

创建test.txt

vim test.txt
内容：
Hello world
Hello world
Hello world
Hello world
Hello world

Hadoop创建

hdfs dfs -mkdir -p /user/hadoop # 在HDFS中创建用户目录
hdfs dfs -mkdir input # 创建input目录
hdfs dfs -put ~/test.txt input # 将本地文件上传到input里
hdfs dfs -ls /user/hadoop/input # 查看是否上传成功

Ubuntu Hadoop集群安装与使用

这四步命令可能出错，具体问题百度，有warning可以不用管

统计词频

hdfs dfs -rm -r output #Hadoop运行程序时，输出目录不能存在，否则会提示错误不存在就不用删
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /user/hadoop/input/test.txt /user/hadoop/output

Ubuntu Hadoop集群安装与使用

查看运行结果 hdfs dfs -cat output/*

Ubuntu Hadoop集群安装与使用

将结果保存到本地

rm -r ./output #如果本地存在output目录，没有就不删
hdfs dfs -get output ./output
cat ./output/*

Ubuntu Hadoop集群安装与使用

删除output目录

hdfs dfs -rm -r output
rm -r ./output

遇到的问题

Hadoop上传文件报错： File /user/cookie/input/wc.input.COPYING could only be replicated to 0 nodes instead 启动HIVE时报: CALL From HADOOP /192.168.1.128 TO HADOOP :9000 FAILED ON CONNECTION的原因之一HADOOP启动没有NAMENOD hadoop上传文件错误org.apache.hadoop.ipc.RemoteException(java.io.IOException)

脚本宝典总结

以上是脚本宝典为你收集整理的Ubuntu Hadoop集群安装与使用全部内容，希望文章能够帮你解决Ubuntu Hadoop集群安装与使用所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：hadoop hdfs hive java load load mapreduce master php python shell shuffle vim vim wordcount 安装安装程序员程序员

上一篇: Note/Solution - 浅尝转置原理 &... 下一篇:ubuntu 编译报错 configure: err...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多

Ubuntu Hadoop集群 安装与使用

参考资料

实验环境

主要步骤

准备步骤

配置 hadoop 用户

安装SSH server

安装Java环境

安装Hadoop

在另一台虚拟机上也同样进行上面四步

搭建Hadoop集群环境

两台虚拟机相互ping通

在Master结点上完成准备工作

在每个结点上进行ping操作

SSH无密码登录结点（Master）

Master结点分布式环境

启动Hadoop

运行单词计数例程

创建test.txt

Hadoop创建

统计词频

遇到的问题

脚本宝典总结

Ubuntu Hadoop集群安装与使用