HADOOP的配置
2026/5/27 15:20:00 网站建设 项目流程

HADOOP的配置

一,集群和分布式的概念

hadoop+java1.8:链接:https://pan.baidu.com/s/1yTlgLGzz6Ow-YWU-CeF68w
提取码:aoag
–来自百度网盘超级会员V4的分享
集群:所有的机器都配置相同的组件
分布式:不同的机器配置的组件不同
共同点:都依赖多台机器运行
二,Linux知识点的补充学习

ls命令,显示指定工作目录之下内容

-a 显示所有文件及目录(.开头的隐藏文件也会列出)
-l显示详细的信息(如文件型态,权限,拥有者)
以下为二者的组合,显示所有的文件的纤细信息

cd命令,切换当前的工作目录

ps:~:表示用户目录,如果是root用户就在root目录下
/:表示根目录
…表示当前目录的上一级目录

文件相关的操作命令

mkdir命令:用于在指定目录下创建目录。
-p 确保父目录名称存在,不存在的就创建一个
touch命令:创建一个空文件,无任何内容。
rm命令:用于删除一个文件或目录。
-f 强制删除,无需用户确认
-r 将目录及以下所有递归逐一删除
cp命令:用于复制文件或目录
-r若给出的源文件是一个目录文件,此时将复制该目录下所有的子目录和文件
mv命令:用来为文件或目录改名,获将文件或目录移入其他位置。(可以理解为,在同一个目录下移动并重命名)

cat(concatenate)命令:
用于连接文件并打印到标准输出设备如console控制台上。适合小文件内容查看
more 命令:类似cat,不过会以一页一页的形式显示,更方便使用者逐页阅读,翻页结束自动退出。适合大文件查看。按space键翻下一页,按b往回( back)上一页
tail 命令:用于查看文件的结尾部分的内容
-n 用于显示行数,默认为10,即显示10行的内容
-f(非常重要,可以用于实时日志采集)用于实时显示文件动态追加的内容。会把文件里的最尾部的内容显示在屏幕上,并且不断刷新,只要+文件有更新,就可以看到最新的文件内容
| 管道命令:将前一个命令执行的结果作为内容交给下一个命令处理。可以形成多级管道操作命令1命令2可以将命令1的结果通过命令2作进一步的外理
实例如下(以下命令ps查询系统的进程通过管道给grep查询sshd相关的进程)

echo 命令:用于内容的输出,将内容输出到console控制台上。
‘’>''输出重定向(覆盖)命令
command >file 执行command然后将输出的内容存入file,file内已经存在的内容将被新内容覆盖替代
'>>'输出重定向(追加)命令
command >>file 执行command然后将输出的内容存入file,新内容追加在文件未尾

tar命令

常用于备份文件。是用来建立,还原备份文件的工具程序,它可以加入,解开备份文件内的文件。
-c或–create建立新的备份文件
-x或–extract或–get 从备份文件中还原文件
-v或–verbose显示指令执行过程
-f<备份文件>或–file=<备份文件>指定备份文件。
如果加上-g表示会对文件进行压缩
也可在末尾加上-C(大写)解压到指定的目录

vim命令

方向键控制移动
翻页 pageup pagedown
行尾(end $)行首(home 0)
跳到文件的最后一行 G
跳到文件的第一行 gg
三,Hadoop配置

hadoop介绍

Hadoop核心组件
Hadoop HDFS(分布式文件存储系统):解决海量数据存储
Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度
Hadoop MapReduce(分布式计算框架):解决海量数据计算

Hadoop特性优点

扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可方便灵活的方式扩展到数以千计的节点
成本低:Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很低看重的是集群整体能力。
效率高:通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy )计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop集群整体概述

Hadoop集群包括两个集群:HDFS集群YARN集群
两个集群逻辑上分离、通常物理上在一起
HDFS集群(分布式存储):
主角色:NameNode
从角色:DataNode
主角色辅助角色:SecondaryNameNode
YARN(集群资源管理、调度):
主角色:ResourceManager
从角色:NodeManager

Hadoop的配置

1.配置静态ip,关闭防火墙并设置开机自启动(不展示),修改主机名,修改hosts映射
2.配置Java环境变量
1.下载jdk1.8并且将它存放在/opt/software 2.解压到/opt/module/ 3.修改环境变量(在头部加入以下代码) 配置文件为:/etc/profile export JAVA_HOME=/opt/modules/jdk8 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools 4.验证是否成功 输入 java -version 输出版本信息,证明成功
3.将进行过如上配置的虚拟机复制两台

!!!记得修改IP,和主机名等信息
记得同步时间,输入
ntpdate ntp4.aliyun.com即可将主机的时间同步

4.为机器配置免密登录

1.通过命令生成公钥

ssh-keygen -t rsa

2.将生成的公钥发给目标机器,就可以登陆对方的机器
如果要设置本地免密登录,记得将公钥发送给本地(ssh-copy-id -i ~/.ssh/id/_rsa.pub root@【本机的主机名】)

ssh-copy-id -i ~/.ssh/id_rsa.pub root@hadoop02
5.环境搭建成功,开始修改配置文件

(记得创建一个/opt/data/hadoop作为hdfs的存储目录)
以下配置文件在/opt/modules/hadoop/etc/hadoop/目录下
1.第一类配置文件
hadoop-env.sh

export JAVA_HOME=/opt/modules/jdk8 #指明java所在的环境变量 #指明各个节点角色使用的用户 export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root

2.第二类配置文件(4个,:xxxxsite.xml,site表示的是用户定义的配置,会覆盖default中的默认配置)
(1)core-site.xml
vim core-site.xml

<configuration> <!-- 整合hive --> <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:8020</value> </property> <!-- 设置Hadoop本地保存数据路径 --> 设置Hadoop本地保存数据路径 <property> <name>hadoop.tmp.dir</name> <value>/opt/data/hadoop</value> </property> <!-- 设置HDFS web UI用户身份 --> <property> <name>hadoop.http.staticuser.user</name> <value>root</value> </property> <!-- 整合hive 用户代理设置 --> <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property> <!-- 垃圾桶文件保存时间 --> <property> <name>fs.trash.interval</name> <value>1440</value> </property> </configuration>

(2)hdfs-site.xml,hdfs文件系统模块配置

<!--这个是用于指定,secondary的位置--> <configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>hadoop02:9868</value> </property> </configuration>

(3)mapred-site.xml,MapReduce模块配置
vim mapred-site.xml

<configuration> <!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <!-- MR程序历史服务器端地址 --> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop01:10020</value> </property> <!-- 历史服务器web端地址 --> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop01:19888</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> <property> <name>mapreduce.map.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> </configuration>

(4)yarn-site.xml yarn模块配置
vim yarn-site.xml

<configuration> <!-- Site specific YARN configuration properties --> <property><!-- 设置YARN集群主角色运行机器位置 --> <name>yarn.resourcemanager.hostname</name> <value>hadoop01</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property><!-- 是否将对容器实施物理内存限制 --> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <property><!-- 是否将对容器实施虚拟内存限制。 --> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> <property><!-- 开启日志聚集 --> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property><!-- 设置yarn历史服务器地址 --> <name>yarn.log.server.url</name> <value>http://hadoop01:19888/jobhistory/logs</value> </property> <property><!-- 保存的时间7天 --> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> </configuration>

3.第三类配置文件
配置干活的小弟
vim workers
hadoop01
hadoop02
hadoop03

6.修改完成后,向其他节点,分发配置文件

scp -r hadoop root@hadoop02:/opt/modules

7.修改hadoop环境变量,并且将它分发给其他机器

vim /etc/profile
export HADOOP/_HOME=/opt/modules/hadoop
export PATH=PATH:PATH:PATH:HADOOP/_HOME/bin:$HADOOP/_HOME/sbin
source vim /etc/profile使配置文件生效
scp -r /etc/profile root@hadoop02:/opt/modules

8.在NameNode节点格式化

注意,自己的心里要知道,你要在那一台机器上面运行namenode节点,在哪里运行就在那一台上面运行以下命令
hdfs namenode -format
如果出现了,说明成功了

9.将启动hadoop

NameNode节点是输入
1.start-dfs.sh
2.start-yarn.sh
没有什么报错后,在浏览器输入,访问查看节点和文件系统是否正常
http://hadoop01:9870/
http://hadoop01:8088/
到此,配置完成

《网络安全从零到精通全套学习大礼包》

96节从入门到精通的全套视频教程免费领取

如果你也想通过学网络安全技术去帮助就业和转行,我可以把我自己亲自录制的96节 从零基础到精通的视频教程以及配套学习资料无偿分享给你。

网络安全学习路线图

想要学习 网络安全,作为新手一定要先按照路线图学习方向不对,努力白费。对于从来没有接触过网络安全的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线,大家跟着这个路线图学习准没错。

配套实战项目/源码

所有视频教程所涉及的实战项目和项目源码

学习电子书籍

学习网络安全必看的书籍和文章的PDF,市面上网络安全书籍确实太多了,这些是我精选出来的

面试真题/经验

以上资料如何领取?

这些是我精选出来的

面试真题/经验

以上资料如何领取?

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询