在centos系统上配置hdfs(hadoop分布式文件系统)需要经过一系列步骤,包括安装必要软件、设置环境变量、调整hadoop配置文件、格式化namenode以及启动和验证hdfs服务。以下是详细的配置指南:
1. 系统环境准备
- 安装Java:HDFS依赖于Java环境,确保Java已安装。可以通过以下命令安装OpenJDK:
sudo yum install java-1.8.0-openjdk-devel -y
- 安装ssh:设置SSH无密码登录,方便节点间无需密码访问。
ssh-keygen -t rsa ssh-copy-id localhost
2. 下载并解压Hadoop
从apache Hadoop官方网站下载适当版本的Hadoop安装包,如Hadoop 3.3.4。
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.4/hadoop-3.3.4.tar.gz tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
3. 配置环境变量
修改 /etc/profile 文件,添加Hadoop的路径和库路径。
echo "export HADOOP_HOME=/opt/hadoop-3.3.4" >> /etc/profile echo "export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin" >> /etc/profile source /etc/profile
4. 配置Hadoop配置文件
- core-site.xml:设置HDFS的默认文件系统和临时目录。
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value></property></configuration>
- hdfs-site.xml:配置HDFS的数据节点目录、副本数等。
<configuration><property><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop/hdfs/datanode</value></property><property><name>dfs.replication</name><value>1</value></property></configuration>
- mapred-site.xml:配置mapreduce框架。
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property></configuration>
- yarn-site.xml:配置YARN资源管理器。
<configuration><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>
5. 格式化NameNode
在NameNode节点上运行以下命令,初始化文件系统。
hdfs namenode -format
6. 启动HDFS
启动NameNode和DataNode服务。
/opt/hadoop-3.3.4/sbin/start-dfs.sh
7. 验证配置
使用以下命令检查HDFS状态。
hdfs dfsadmin -report
访问NameNode的Web界面:https://www.php.cn/link/b9d0cdbab65a298d077a7b9794f97cd5
8. 安全设置(可选)
- 禁用非必要的超级用户:使用 cat /etc/passwd 命令查看口令文件,确保没有多个 user_id 为0 的账户。
- 加强用户口令:设置包含大写字母、小写字母、数字和特殊字符的复杂口令,长度应超过10位。
- 保护口令文件:使用 chattr +i 命令为 /etc/passwd、/etc/shadow、/etc/group 和 /etc/gshadow 文件设置不可更改属性。
- HDFS安全模式:在HDFS中,NameNode进入安全模式(SafeMode)以保证数据的一致性和可靠性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END