如何在openEuler上快速部署Hadoop 3.3.4集群：5步完整教程-港品优选

如何在openEuler上快速部署Hadoop 3.3.4集群：5步完整教程

【免费下载链接】bigdataThis repository contains common information and common tools of bigdata.项目地址: https://gitcode.com/openeuler/bigdata

前往项目官网免费下载：https://ar.openeuler.org/ar/

想要在openEuler操作系统上快速搭建一个稳定可靠的大数据处理平台吗？本教程将为您详细介绍如何在openEuler 22.03上部署Hadoop 3.3.4集群的完整步骤。无论您是初学者还是有经验的管理员，这份5步教程都能帮助您快速完成Hadoop集群部署，开启大数据处理之旅！🚀

openEuler作为一款优秀的开源操作系统，与Hadoop的完美结合能够为企业级大数据应用提供强大的基础支撑。通过本教程，您将掌握从环境准备到集群验证的完整部署流程。

📋 第一步：环境准备与规划

在开始部署Hadoop集群之前，需要做好充分的准备工作。根据openEuler bigdata项目中的部署指南，以下是必备的环境要求：

硬件与软件要求

操作系统要求：

openEuler 22.03 LTS（推荐版本）
适用于CentOS 7.4~7.6、openEuler-20.03等操作系统

软件版本：

OpenJDK 1.8.0_342（可通过yum安装）
Hadoop 3.3.4（需要从官网获取）
ZooKeeper 3.8.1（用于集群协调）

集群规划示例：| 机器名称 | IP地址 | 角色分配 | 存储配置 | |---------|--------|----------|----------| | server1 | 192.168.1.10 | NameNode, ResourceManager | 系统盘：1×4TB，数据盘：12×4TB HDD | | agent1 | 192.168.1.11 | DataNode, NodeManager, JournalNode | 系统盘：1×4TB，数据盘：12×4TB HDD | | agent2 | 192.168.1.12 | DataNode, NodeManager, JournalNode | 系统盘：1×4TB，数据盘：12×4TB HDD | | agent3 | 192.168.1.13 | DataNode, NodeManager, JournalNode | 系统盘：1×4TB，数据盘：12×4TB HDD |

基础环境配置

设置主机名：

hostnamectl set-hostname server1 --static # 其他节点依次设置为agent1、agent2、agent3

配置主机映射：编辑所有节点的/etc/hosts文件，添加集群节点映射关系：

192.168.1.10 server1 192.168.1.11 agent1 192.168.1.12 agent2 192.168.1.13 agent3

关闭防火墙：

systemctl stop firewalld.service systemctl disable firewalld.service

配置SSH免密登录：

ssh-keygen -t rsa ssh-copy-id -i ~/.ssh/id_rsa.pub root@server1 # 对所有节点执行相同操作

🔧 第二步：ZooKeeper集群部署

ZooKeeper是Hadoop高可用集群的关键组件，负责集群协调服务。按照openEuler bigdata项目中的移植指南，我们需要先部署ZooKeeper集群。

ZooKeeper安装配置

下载并解压ZooKeeper：

mv zookeeper-3.8.1.tar.gz /usr/local cd /usr/local tar -zxvf zookeeper-3.8.1.tar.gz ln -s zookeeper-3.8.1 zookeeper

配置环境变量：编辑/etc/profile文件，添加：

export ZOOKEEPER_HOME=/usr/local/zookeeper export PATH=$ZOOKEEPER_HOME/bin:$PATH

修改配置文件：进入/usr/local/zookeeper/conf目录，复制并编辑配置文件：

cp zoo_sample.cfg zoo.cfg vim zoo.cfg

关键配置项：

dataDir=/usr/local/zookeeper/tmp server.1=agent1:2888:3888 server.2=agent2:2888:3888 server.3=agent3:2888:3888

mkdir /usr/local/zookeeper/tmp echo 1 > /usr/local/zookeeper/tmp/myid

同步配置到其他节点：

scp -r /usr/local/zookeeper-3.8.1 root@agent2:/usr/local scp -r /usr/local/zookeeper-3.8.1 root@agent3:/usr/local

图：分布式协调服务ZooKeeper确保Hadoop集群的高可用性

🚀 第三步：Hadoop集群核心配置

Hadoop 3.3.4在openEuler上的部署需要特别注意配置文件的调整，确保集群能够稳定运行。

Hadoop安装与环境变量

解压Hadoop安装包：

mv hadoop-3.3.4.tar.gz /usr/local cd /usr/local tar -zxvf hadoop-3.3.4.tar.gz ln -s hadoop-3.3.4 hadoop

配置Hadoop环境变量：编辑/etc/profile文件，添加：

export HADOOP_HOME=/usr/local/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

关键配置文件修改

所有配置文件位于$HADOOP_HOME/etc/hadoop目录下，需要修改以下核心文件：

hadoop-env.sh：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.352.b08-3.oe2203sp1.aarch64/jre/ export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root

core-site.xml（核心配置）：

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://server1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop_tmp_dir</value> </property> </configuration>

hdfs-site.xml（HDFS配置）：

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/data/data1/hadoop/nn</value> </property> </configuration>

yarn-site.xml（YARN配置）：

<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>server1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>

workers文件配置：编辑workers文件，添加所有DataNode节点：

agent1 agent2 agent3

🔄 第四步：集群同步与启动

配置完成后，需要将配置同步到所有节点并启动集群服务。

配置同步与目录创建

# 在server1节点创建临时目录 mkdir -p /home/hadoop_tmp_dir # 在agent节点创建数据目录 mkdir -p /data/data{1..12}/hadoop mkdir -p /data/data{1..12}/hadoop/yarn

同步Hadoop配置：

scp -r /usr/local/hadoop-3.3.4 root@agent1:/usr/local scp -r /usr/local/hadoop-3.3.4 root@agent2:/usr/local scp -r /usr/local/hadoop-3.3.4 root@agent3:/usr/local

在各节点创建软链接：

cd /usr/local ln -s hadoop-3.3.4 hadoop

集群启动流程

按照openEuler bigdata项目部署指南，启动集群需要按顺序执行以下步骤：

启动ZooKeeper集群：

cd /usr/local/zookeeper/bin ./zkServer.sh start

启动JournalNode服务：

cd /usr/local/hadoop/sbin ./hadoop-daemon.sh start journalnode

格式化HDFS（仅首次）：

hdfs namenode -format

格式化ZKFC（仅首次）：

hdfs zkfc -formatZK

启动HDFS服务：

cd /usr/local/hadoop/sbin ./start-dfs.sh

启动YARN资源管理器：

cd /usr/local/hadoop/sbin ./start-yarn.sh

图：Hadoop集群在openEuler上的性能测试结果展示

✅ 第五步：集群验证与监控

部署完成后，需要验证集群是否正常运行，并了解基本的监控方法。

服务状态检查

使用jps命令检查进程：

jps

正常状态下应该看到以下进程：

NameNode
DataNode
ResourceManager
NodeManager
JournalNode
QuorumPeerMain（ZooKeeper）

检查HDFS状态：

hdfs dfsadmin -report

检查YARN状态：

yarn node -list

Web界面访问

Hadoop提供了丰富的Web管理界面，可以通过浏览器访问：

HDFS Web界面：访问http://server1:50070查看HDFS状态和文件系统
YARN资源管理器：访问http://server1:8088查看集群资源和作业状态

基本功能测试

hdfs dfs -mkdir /test

上传测试文件：

echo "Hello Hadoop on openEuler" > test.txt hdfs dfs -put test.txt /test/

查看文件内容：

hdfs dfs -cat /test/test.txt

运行MapReduce示例：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 10 1000

图：Hadoop集群查询性能测试通过的查询列表

🛠️ 故障排除与优化建议

常见问题解决

端口冲突问题：如果遇到端口被占用，可以修改hdfs-site.xml和yarn-site.xml中的端口配置。
权限问题：确保所有节点的用户权限一致，建议使用root用户或创建专门的hadoop用户。
内存配置调整：根据实际硬件资源调整yarn-site.xml中的内存配置：

<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>102400</value> </property>

性能优化建议

数据目录优化：将数据目录分布在不同的物理磁盘上，提高I/O性能。
网络配置：确保集群节点之间的网络延迟低，建议使用万兆网络。
JVM参数调整：根据实际负载调整Hadoop服务的JVM参数。

📚 学习资源与进阶

官方文档参考

部署指南：Docs/部署指南/hadoop.md
移植指南：Docs/移植指南/hadoop.md
调优指南：Docs/调优指南/

下一步学习方向

Hive部署：在Hadoop基础上部署数据仓库工具
Spark集成：配置Spark on YARN运行环境
安全配置：配置Kerberos认证和权限管理
监控告警：集成Prometheus和Grafana监控

通过这5个步骤，您已经在openEuler上成功部署了一个完整的Hadoop 3.3.4集群！🎉 现在您可以开始探索大数据处理的无限可能，无论是数据分析、机器学习还是实时处理，这个集群都将为您提供强大的计算和存储能力。

记住，openEuler与Hadoop的完美结合不仅提供了稳定可靠的基础平台，还通过社区支持确保了长期的技术演进和优化。祝您在大数据之旅中取得成功！

【免费下载链接】bigdataThis repository contains common information and common tools of bigdata.项目地址: https://gitcode.com/openeuler/bigdata

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析